일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 파이싼
- REST
- 기계학습
- 재귀
- 밑바닥부터 시작하는 딥러닝
- REST API
- n과 m
- 오블완
- BOJ
- 경사하강법
- 그리디 알고리즘
- 신경망 학습
- streamlit
- 실버
- 1002
- 9020
- 백트래킹
- 15649
- 티스토리챌린지
- pyenv
- N-Queen
- 파이썬
- 개발환경
- 4948
- end to end
- 가상환경
- 손실함수
- 1101
- 백준
- Python
- Today
- Total
목록2025/03 (3)
파이톨치

NMS (Non-Maximum Suppression) NMS 앙상블은 여러 개의 객체 탐지 모델이 예측한 바운딩 박스를 합치는 기법 중 하나야. 일반적인 NMS(Non-Maximum Suppression) 는 중복된 박스를 제거하는 과정이지만, NMS 앙상블은 여러 모델의 예측 결과를 조합하여 더 강력한 탐지 결과를 얻는 방법이야.💡 어디에 쓰냐면?객체 탐지 모델을 여러 개 조합할 때(예: Faster R-CNN + YOLO + RetinaNet)앙상블을 활용해 탐지 성능을 극대화할 때 여러 모델이 예측한 바운딩 박스 수집바운딩 박스 클러스터링 (IOU 기준으로 비슷한 박스를 그룹화)각 클러스터에서 최적의 박스 선택보통 가중 평균(Weighted Box Fusion, WBF)또는 신뢰도가 가장 높은 박..

chatgpt가 발달하면서 나는 이제 인간의 지능이라고 하는 것, 즉 사고는 정복당할 것이라고 생각했다. 실제로 이러한 사고능력(수학적인 능력, 논리적인 사고력) 등이 이전보다 비약적인 발전을 하고 있다.그렇기에 다음스텝은 이러한 사고력을 기반으로 여러가지 모달리티(감각)를 합치는 것이라 생각했다. 이러한 관점에서 멀티모달에 대해 공부하는 것은 굉장히 시기 적절한 것이다. 기본적으로 텍스트만 보고 텍스트를 추론하는 것을 uni-modal이라고 한다. 하지만 시각적인 이미지를 보고 텍스트로 출력하는 것은 시각과 text 2가지 모달리티를 결합했기에 multi-modal이라고 부른다. 딥러닝 관점에서 이러한 결합이 어려운 이유는 representation 공간 때문이다. 이는 벡터 공간이라고 하는데, 입..

1. 다국어 CLIP 기반 대조학습 프레임워크처음에 자대 연구실에 들어가서 했던 연구이다. 2023년도 6월에 KCC에 제출했던 논문이다. (사실 이때는 연구실 처음 들어갔을 때라, 발표용 포스터 제작과 논문 일부만 작성했다.) 학습은 대조학습을 기반으로 하고 있고, 이미지에 대한 변경은 없고 텍스트를 바꾼다. 마스크드 언어 모델을 통해서, 윤 대통령을 문 대통령으로 바꾸는 식이다. 이때 형태소 분석 & 객체명 인식을 통해서 '누가', '무엇을' 했는지 등을 바꾸게 된다. 변경된 텍스트는 negative sample로 사용하여 clip 모델을 학습시킨다. 데이터는 인터넷 뉴스의 텍스트와 썸네일이다. 2. 언어모델의 소수 추론 능력 평가처음으로, 스스로 쓴 논문이다. 연구하게 된 배경은 연구실 세미나 시간..