'2025/03 글 목록

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/03 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Tags more

Archives

Today

Total

관리 메뉴

목록2025/03 (3)

파이톨치

NMS, YOLO와 DETR, sentence transformer

NMS (Non-Maximum Suppression) NMS 앙상블은 여러 개의 객체 탐지 모델이 예측한 바운딩 박스를 합치는 기법 중 하나야. 일반적인 NMS(Non-Maximum Suppression) 는 중복된 박스를 제거하는 과정이지만, NMS 앙상블은 여러 모델의 예측 결과를 조합하여 더 강력한 탐지 결과를 얻는 방법이야.💡 어디에 쓰냐면?객체 탐지 모델을 여러 개 조합할 때(예: Faster R-CNN + YOLO + RetinaNet)앙상블을 활용해 탐지 성능을 극대화할 때 여러 모델이 예측한 바운딩 박스 수집바운딩 박스 클러스터링 (IOU 기준으로 비슷한 박스를 그룹화)각 클러스터에서 최적의 박스 선택보통 가중 평균(Weighted Box Fusion, WBF)또는 신뢰도가 가장 높은 박..

카테고리 없음 2025. 3. 15. 23:09

Multi-modal learning [작성중]

chatgpt가 발달하면서 나는 이제 인간의 지능이라고 하는 것, 즉 사고는 정복당할 것이라고 생각했다. 실제로 이러한 사고능력(수학적인 능력, 논리적인 사고력) 등이 이전보다 비약적인 발전을 하고 있다.그렇기에 다음스텝은 이러한 사고력을 기반으로 여러가지 모달리티(감각)를 합치는 것이라 생각했다. 이러한 관점에서 멀티모달에 대해 공부하는 것은 굉장히 시기 적절한 것이다. 기본적으로 텍스트만 보고 텍스트를 추론하는 것을 uni-modal이라고 한다. 하지만 시각적인 이미지를 보고 텍스트로 출력하는 것은 시각과 text 2가지 모달리티를 결합했기에 multi-modal이라고 부른다. 딥러닝 관점에서 이러한 결합이 어려운 이유는 representation 공간 때문이다. 이는 벡터 공간이라고 하는데, 입..

카테고리 없음 2025. 3. 13. 12:24

지금까지 했던 프로젝트들

1. 다국어 CLIP 기반 대조학습 프레임워크처음에 자대 연구실에 들어가서 했던 연구이다. 2023년도 6월에 KCC에 제출했던 논문이다. (사실 이때는 연구실 처음 들어갔을 때라, 발표용 포스터 제작과 논문 일부만 작성했다.) 학습은 대조학습을 기반으로 하고 있고, 이미지에 대한 변경은 없고 텍스트를 바꾼다. 마스크드 언어 모델을 통해서, 윤 대통령을 문 대통령으로 바꾸는 식이다. 이때 형태소 분석 & 객체명 인식을 통해서 '누가', '무엇을' 했는지 등을 바꾸게 된다. 변경된 텍스트는 negative sample로 사용하여 clip 모델을 학습시킨다. 데이터는 인터넷 뉴스의 텍스트와 썸네일이다. 2. 언어모델의 소수 추론 능력 평가처음으로, 스스로 쓴 논문이다. 연구하게 된 배경은 연구실 세미나 시간..

프로젝트 2025. 3. 11. 17:18

이전 Prev 1 Next 다음

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

파이톨치

목록2025/03 (3)

파이톨치

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역