일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 밑바닥부터 시작하는 딥러닝
- n과 m
- REST API
- 9020
- 경사하강법
- BOJ
- streamlit
- 4948
- 1002
- 1101
- 개발환경
- 기계학습
- 손실함수
- Retrieval
- 오블완
- 파이싼
- 티스토리챌린지
- 15649
- 재귀
- pyenv
- 파이썬
- video retireval
- 백준
- N-Queen
- 가상환경
- end to end
- 그리디 알고리즘
- 신경망 학습
- Python
- 백트래킹
- Today
- Total
파이톨치
GME: Improving Universal Multimodal Retrieval by Multimodal LLMs 본문
Motivation (동기)
이 연구의 동기는 Universal Multimodal Retrieval (UMR) 시스템을 구축하는 데 있습니다. 기존의 UMR 시스템은 텍스트, 이미지, 그리고 텍스트와 이미지의 조합과 같은 다양한 입력 모달리티를 처리할 수 있어야 합니다. 하지만 기존의 UMR 모델들은 융합된 모달리티(fused-modal) 데이터의 부족으로 성능에 제한을 겪고 있습니다. 융합된 모달리티 데이터는 텍스트와 이미지가 결합된 형태로, 실제 응용에서 많이 필요하지만 훈련 데이터에서 적게 사용되고 있습니다. 이 문제를 해결하기 위해, 저자들은 General Multimodal Embedder (GME) 모델을 제안합니다. 이 모델은 Multimodal Large Language Models (MLLMs)을 기반으로 하여 텍스트, 이미지, 시각적 문서(예: PDF 스크린샷) 등 다양한 모달리티를 통합하여 검색 성능을 극대화합니다.
저자들은 융합된 모달 데이터의 부족이 모델 성능에 미치는 영향을 강조하며, 융합된 데이터 생성을 위한 새로운 데이터 합성 파이프라인을 개발했습니다. 이 파이프라인을 통해 1.1M 개의 융합 모달 쌍을 생성하여 훈련에 사용함으로써 모델의 성능을 크게 향상시켰습니다. 저자들은 이를 통해 MLLM이 텍스트 데이터만으로 훈련되었을 때보다 다양한 모달리티 데이터를 포함한 훈련이 모델의 성능을 크게 향상시킨다고 주장합니다.
Analysis (분석)
이 연구에서는 기존 UMR 모델들이 주로 자연 이미지를 중심으로 훈련되고, 시각적 문서(예: PDF, 문서 스크린샷) 검색에 대한 지원이 부족하다는 문제를 지적합니다. 텍스트와 이미지를 모두 포함하는 융합된 모달리티 데이터는 현실 세계에서 유용하지만, 기존의 모델들은 이를 제대로 처리하지 못했습니다. 이를 해결하기 위해 저자들은 General Multimodal Embedder (GME) 모델을 제안하고, 이 모델이 기존의 모델들을 뛰어넘는 성과를 보여주었음을 실험적으로 입증합니다. 특히, GME 모델은 융합된 모달리티 데이터를 효과적으로 처리하는 능력을 보였으며, 시각적 문서 검색에서도 뛰어난 성과를 나타냈습니다.
저자들은 훈련 데이터 구성에 따라 모델 성능이 어떻게 달라지는지 분석했습니다. 실험 결과, 융합된 모달리티(fused-modal) 데이터(예: 이미지와 텍스트가 결합된 데이터)가 모델 성능에 큰 영향을 미친다고 밝혔습니다. 저자들은 다양한 단일 모달, 교차 모달, 융합 모달 데이터의 혼합이 GME 모델의 성능을 최적화하는 데 중요한 역할을 한다고 분석합니다. 특히, 텍스트와 이미지를 결합한 훈련 데이터를 포함하면 모델의 일반화 성능이 크게 향상되는 것을 보여주었습니다. 기존에 사용되었던 단일 모달 데이터와 교차 모달 데이터만으로는 한계가 있음을 실험을 통해 입증하였습니다.
실험 결과:
- GME 모델은 VISTA와 같은 기존 모델들보다 성능이 우수했으며, 특히 융합된 모달리티(fused-modal) 데이터를 잘 처리할 수 있다는 점에서 큰 차별점을 보였습니다.
- 훈련 데이터에 융합된 모달리티 데이터를 추가하는 것이 모델 성능을 개선하는 데 중요한 요소임을 확인할 수 있었습니다. 이로 인해 멀티모달 검색 시스템에서 더 나은 성능을 발휘할 수 있었습니다.