일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 15649
- BOJ
- 오블완
- 1002
- 가상환경
- video retireval
- 4948
- Python
- 그리디 알고리즘
- Retrieval
- streamlit
- 백트래킹
- 1101
- 기계학습
- end to end
- 파이썬
- n과 m
- 티스토리챌린지
- 신경망 학습
- 백준
- 경사하강법
- 손실함수
- pyenv
- 파이싼
- 재귀
- 개발환경
- N-Queen
- 9020
- REST API
- 밑바닥부터 시작하는 딥러닝
- Today
- Total
파이톨치
[paper review] Tarsier2: Advancing Large Vision-Language Models from Detailed VideoDescription to Comprehensive Video Understanding 본문
[paper review] Tarsier2: Advancing Large Vision-Language Models from Detailed VideoDescription to Comprehensive Video Understanding
파이톨치 2025. 1. 27. 14:40Tarsier2
Abstract
이 논문은 정교하고 정확한 동영상 설명을 생성하며 뛰어난 일반 동영상 이해 능력을 가진 최첨단 대형 비전-언어 모델(LVLM)인 Tarsier2를 소개합니다. Tarsier2는 다음 세 가지 주요 업그레이드를 통해 큰 진전을 이루었습니다:
- 사전 학습 데이터 규모를 1,100만 개에서 4,000만 개의 동영상-텍스트 쌍으로 확장하여 데이터의 양과 다양성을 풍부하게 함.
- 지도 학습 세분화 단계에서 정교한 시간적 정렬 수행.
- 모델 기반 샘플링을 사용해 선호 데이터를 자동으로 구성하고 최적화를 위해 DPO(Direct Preference Optimization) 훈련을 적용.
광범위한 실험 결과, Tarsier2-7B는 세부 동영상 설명 작업에서 GPT-4o와 Gemini 1.5 Pro를 포함한 주요 상용 모델들을 일관되게 능가하는 성능을 보여줍니다. DREAM-1K 벤치마크에서 Tarsier2-7B는 GPT-4o 대비 F1 점수를 2.8%, Gemini-1.5-Pro 대비 5.8% 향상시켰습니다. 인간 대상의 직접 비교 평가에서는 Tarsier2-7B가 GPT-4o 대비 +8.6%, Gemini-1.5-Pro 대비 +24.9%의 성능 우위를 보였습니다. 또한, Tarsier2-7B는 비디오 질문 응답, 비디오 그라운딩, 환각 테스트, 구현된 질문 응답 등의 15개의 공공 벤치마크에서 새로운 최첨단 성능을 기록하며, 견고한 범용 비전-언어 모델로서의 다재다능함을 입증했습니다.
Introduction
도입부:
최근 대형 비전-언어 모델(LVLM)의 발전으로 동영상 이해 능력이 크게 향상되었습니다. GPT-4o 및 Gemini-1.5-Pro와 같은 주요 상용 모델은 다양한 동영상 이해 과제에서 최첨단(SOTA) 성능을 보여주었으며, 오픈소스 모델들도 일부 벤치마크에서 강력한 성능을 보이고 있습니다. 하지만, 특히 복잡하고 개방형 생성 작업에서는 여전히 상용 모델보다 성능이 떨어지고, 인간 수준의 동영상 이해를 따라잡기 위해서는 시간적 역학, 공간-시간적 추론, 그리고 모델 환각 문제와 같은 과제를 해결해야 합니다.
Tarsier2 모델 소개:
이 논문은 Tarsier2라는 7B 파라미터를 가진 LVLM 모델을 소개하며, 이 모델은 상세한 동영상 설명 생성에서 GPT-4o와 Gemini-1.5-Pro를 능가하는 성능을 보여줍니다. Tarsier2는 동영상 질문응답(VQA) 벤치마크에서도 뛰어난 성능을 보이며, 상용 모델과 비교해 동등하거나 그 이상의 결과를 달성합니다. Tarsier2는 비전 인코더, 비전 어댑터, 대형 언어 모델(LLM)로 구성된 간단한 아키텍처를 사용하며, 사전 학습, 지도 학습(SFT), 강화 학습(RL)의 세 단계를 통해 훈련됩니다.
주요 개선 사항:
- 데이터셋 확장:
- 사전 학습 데이터셋을 1,100만 개에서 4,000만 개 동영상-텍스트 쌍으로 확대.
- 고품질 데이터를 확보하기 위해 영화와 TV 쇼에 대한 해설 및 분석이 포함된 1,100만 개의 동영상을 수집.
- 데이터 양 증가가 성능 개선에 일관되게 기여함을 실험으로 확인.
- 세분화된 시간 정렬:
- 15만 개의 동영상 설명 데이터셋을 구축하여, 각 이벤트에 해당하는 특정 프레임과 함께 상세한 설명을 제공.
- 이 데이터를 SFT 단계에서 활용해 모델이 정교한 시간적 정렬을 학습하도록 함.
- 기존의 동영상-캡션 정렬 학습보다 정확도를 높이고 환각 문제를 감소시킴.
- DPO(Direct Preference Optimization) 훈련:
- 모델이 자동으로 선호 데이터를 생성하도록 하여 DPO 훈련을 수행.
- 부정 샘플링 기법을 통해 손상된 동영상에서 부정적인 샘플을 생성하고, AutoDQ를 사용해 품질이 낮은 샘플을 필터링.
- SFT 단계 이후에도 성능을 지속적으로 향상시킴.
실험 결과:
- Tarsier2는 동영상 설명 생성에서 모든 모델을 능가하며, DREAM-1K 및 E.T. Bench-Captioning에서 상용 및 오픈소스 LVLM을 능가.
- 인간 직접 비교 평가에서 GPT-4o 대비 +7.8%, Gemini-1.5-Pro 대비 +12.3%, 기존 오픈소스 모델인 Tarsier-34B 대비 +51.4%의 성능 향상.
- 동영상 질문응답, 환각 테스트, 비디오 그라운딩, 구현된 질문응답 등 다양한 공공 벤치마크에서 새로운 SOTA 성능을 기록.
결론:
이 논문은 Tarsier2의 강력한 성능에 기여한 주요 요인을 탐구하기 위해 광범위한 소거 연구(ablation study)를 수행했습니다. 또한, Tarsier2-Recap-585K라는 재캡션 데이터셋을 공개하며, 기존 LVLM의 동영상 설명 및 일반적인 동영상 이해 능력을 강화하는 데 효과적임을 입증했습니다.
Approach
초기화 및 3단계 훈련 전략
- Tarsier2 모델은 Qwen2-VL 가중치를 초기값으로 사용하고, 3단계 훈련 전략을 채택함.
- 사전 훈련 (Pre-training): 4천만 개의 대규모 비디오-텍스트 쌍을 사용.
- 미세 조정 (Fine-tuning): 사람이 주석한 데이터셋을 기반으로, 세부적인 비디오 묘사 및 자연스러운 지침을 따르는 비디오 묘사로 나뉘어 2단계로 진행.
- 직접 선호 최적화 (Direct Preference Optimization, DPO): 자동 생성된 선호 데이터를 이용해 비디오 묘사의 품질을 추가적으로 향상.
사전 훈련 (Pre-training)
- 훈련 작업:
비디오 캡셔닝, 비디오 질문-응답, 동작 인식, 동작 그라운딩, (다중) 이미지 이해, 텍스트 생성 등 다양한 작업 포함. - 데이터 구성:
- 공용 데이터셋 2천만 개
- 새롭게 수집된 자체 데이터셋 2천만 개
→ 자체 데이터가 성능 향상에 크게 기여함.
- 데이터 수집 파이프라인:
- 다양한 장르의 비디오 (애니메이션, 영화, TV 시리즈, 단편 비디오, 게임 등)를 인터넷에서 수집.
- 비디오는 3가지 유형으로 나뉨:
- 캡션 포함 짧은 비디오: 인터넷에서 직접 가져온 240만 개 비디오.
- 영화/TV 쇼 해설 비디오:
- PySceneDetect로 비디오를 단일 장면으로 분할.
- 정적이거나 저품질 클립은 필터링. -> 예를 들어, 대화 장면만 있는 클립
- 인접 클립을 병합하여 2~30초 길이의 세그먼트 생성. -> 평균적인 길이는 20-30초
- OCR 도구로 해설 텍스트를 추출하고, 해당 부분은 비디오에서 가림.
- BERT 스타일 모델로 시각적 연관성이 낮은 클립 필터링.
→ 최종적으로 1,100만 개 클립 생성.
- 기타 비디오:
- 해설 비디오와 유사한 방식으로 처리.
- 멀티모달 LLM으로 자동 생성된 비디오 캡션과 질문-답변 페어 추가.
→ 최종적으로 270만 개 클립 생성.
- 해설 비디오의 중요성:
기존 데이터셋 (예: HowTo100M)이 ASR 전사에 의존하는 반면, 해설 데이터는 비디오와 텍스트 간의 더 강한 정렬을 보여줌. 이는 원자적 동작뿐만 아니라 줄거리 세부사항 등 고차원 정보를 포함, 모델의 시각적 이해를 강화함.
- 추가 데이터:
- 객체 추적, 프레임 순서 예측, 이미지 검색, 비디오 질문-응답, 이미지 캡셔닝 등 대규모 합성 데이터셋 사용.
- 훈련 세부사항:
- 총 4천만 개 샘플.
- 128개의 H100 GPU로 Tarsier2 훈련.
- 각 비디오에서 16~128 프레임 샘플링 (비디오 길이에 따라). -> 우리 모델에 사용할만한 전략이다.
- 사전 훈련 단계에서 2000억 토큰 처리.
Supervised Fine-Tuning (SFT)
목적
- 비디오 설명의 정확성과 포괄성을 높이고, 사람처럼 자연스럽고 세부적인 설명을 생성하도록 모델을 개선.
- 두 단계에 걸친 SFT를 수행:
- 세밀한 시간적 정렬(temporal grounding)을 포함한 비디오 설명 데이터 학습.
- 사람처럼 자연스러운 스타일의 비디오 설명으로 모델을 세부 조정.
1단계: 세밀한 시간적 정렬
- 비디오와 이벤트 간의 세밀한 정렬을 통해 각 프레임에 대한 설명을 지정.
- 예: 특정 이벤트가 발생하는 프레임을 지정하여 시간적, 시각적 단서를 강조.
- 효과: 생성된 비디오 설명에서 주요 이벤트 누락을 줄임.
2단계: 자연스러운 스타일 조정
- 첫 번째 단계에서 이벤트를 너무 세분화하여 설명이 단편적으로 나눠지는 문제를 발견.
- 예: 와인을 따르는 행동이 "병 열기", "병 들기", "따르기"로 나뉨.
- 이를 해결하기 위해 자연스럽고 사람 같은 비디오 설명 데이터를 추가.
- 다양한 언어 스타일과 세부 수준(granularity)을 반영하는 설명 지침(instruction)을 설계.
- 각 비디오 설명을 해당 지침과 맞도록 조정.
- 데이터 규모:
- SFT-1: 150k 비디오-설명 쌍.
- SFT-2: 50k 설명 지침 + 150k 조정된 비디오 설명 쌍.
- 훈련 설정:
- 32 H100 GPU 사용.
- 비디오당 16프레임 샘플링.
- 5000번 반복 학습.
- 학습률: SFT-1 단계에서 2e-5, SFT-2 단계에서 2e-6.
Direct Preference Optimization (DPO)
목적
- 자동화된 선호 데이터(preference data) 수집 방식을 도입해 비디오 설명 품질을 개선.
- DPO 학습으로 모델이 고품질, 세부적인 설명을 생성할 수 있도록 강화.
기존 샘플링 문제점
- 저온 샘플링(low-temperature): 출력의 변동성이 적음.
- 고온 샘플링(high-temperature): 출력이 통제 불가능하거나 비정상적으로 생성되는 경우가 많음.
새로운 데이터 수집 접근법
- 비디오를 수정(perturbation)하여 부정적인 설명을 유도하는 자동화 방식 도입.
- 수정 기법:
- 클립 순서 변경(clip-switching): 비디오를 4개의 클립으로 나눈 후, 2개의 클립 순서를 랜덤하게 변경.
- 클립 반전(clip-reversing): 임의의 클립을 반전.
- 클립 자르기(clip-cropping): 비디오 길이의 절반에 해당하는 클립을 샘플링.
- 다운샘플링(down-sampling): 비디오 프레임의 절반을 랜덤하게 삭제.
- 각 수정된 비디오(˜x)에서 생성된 설명(˜y)을 원본 비디오 설명(y)과 비교하여 선호 데이터 {x, yw=y, yl=˜y}를 생성.
DPO 학습 결과
- 시간적 오류를 포함한 부정적인 설명(예: 잘못된 클립 순서)을 식별하도록 모델을 강화.
- 불완전한 설명(예: 프레임 삭제로 인한 정보 손실)을 개선하도록 모델을 훈련.
- 예시:
- 원본 비디오로 생성된 긍정적인 설명과, 수정된 비디오로 생성된 부정적인 설명을 비교해 학습.
결론
이 논문에서는 Tarsier2라는 첨단 비전-언어 모델을 소개했습니다. Tarsier2는 현재 존재하는 상용 및 오픈소스 모델을 능가하여, 정확하고 상세한 비디오 설명을 생성할 수 있습니다. 또한, 다양한 비디오 이해 과제에서 새로운 벤치마크를 설정했습니다.
Tarsier2의 발전 요인은 다음과 같습니다:
- 훈련 데이터셋의 양과 다양성 확대
- 세밀한 시간적 정렬(temporal alignment)
- DPO(Direct Preference Optimization) 훈련
미래 연구 방향으로는 다음의 세 가지를 제안합니다:
- 더 긴 비디오를 처리하기 위한 효율적인 모델 아키텍처 개발과 훈련 데이터셋 확장.
- 실시간 비디오 처리 기능 강화를 통해 스트리밍 비디오를 분석하고 설명하는 능력 향상.
- 비디오, 오디오, 텍스트 간의 더 풍부한 상호작용을 탐구하여, 더 포괄적이고 맥락을 이해하는 비디오 이해 시스템 개발.
Tarsier2는 비디오 이해의 새로운 기준을 제시하며, 다양한 응용 분야에서 중요한 역할을 할 것으로 기대됩니다.