Omni Captioning Papers

250x250

Notice

Recent Posts

Recent Comments

Link

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

파이톨치

Omni Captioning Papers 본문

카테고리 없음

Omni Captioning Papers

파이톨치 2025. 10. 15. 15:07

728x90

Omni Captioning Papers

AVoCaDO

AVoCaDO는 영상+오디오(AV)를 시간적으로 맞물리게(temporal orchestration) 서술하는 캡셔닝 모델. 107K AV 캡션 SFT와 GRPO 보상 3종(체크리스트, 대화 정확도, 길이 정규화)로 학습해, 여러 AV 캡셔닝 벤치마크에서 오픈소스 SOTA 및 일부 상용 모델 수준까지 도달.

문제의식 & 아이디어

기존 비디오 캡셔닝은 비전 중심이라 오디오(대사, 효과음, 음악) 정보와 시점 정합을 놓침.
단순히 “비디오 설명 + 오디오 설명을 이어붙이기”는 시간적 대응 실패 → QA 성능 저하.
파일럿 실험: 공동 처리(AV joint caption)가 분리 후 연결 대비 +15.8%, 특히 AV 이벤트 정합 과제에서 +27.8% 향상. → AV 동시·정합 캡션이 성능의 핵심.

모델/학습 파이프라인

베이스: Qwen2.5-Omni-7B(영상 프레임·오디오를 교차 토큰열로 정렬 가능).
AVoCaDO SFT (감독 미세조정)
- 데이터 107K AV 캡션 쌍 자체 구축.
- 두 단계 캡션 제작: (1) 비디오/오디오를 각각 캡션화 → (2) 원본 영상과 함께 시간 정합된 단일 AV 캡션으로 재합성.
- 품질 필터링: 길이/중복 제거 후, 합성 전·후 캡션을 GPT-4.1로 완결성 1–5점 평가, 4점 이상만 채택.
- 소스 구성 예시: TikTok-10M(24K), ShortVideo(18K), Shot2Story(20K), FineVideo(29K), YouTube-Commons(11K), CinePile(5K).
AVoCaDO GRPO (강화 후처리)
- GRPO로 2K 샘플에 보상 최적화.
- 보상 3종
  1. 체크리스트 기반(RC): AV 캡션을 5축(교차모달 내러티브/동작·상호작용/오디오 요소/시공간·촬영/정적 엔티티) 키포인트로 분해, 키포인트 충족률 보상.
  2. 대화 기반(RD): 모델 캡션에서 대사 추출 후, 내용 유사도(편집거리, LCS, 임계 0.6) + 화자 일치로 F1 산출·보상.
  3. 길이 정규화(RL): 토큰 길이 τ1=2048, τ2=4096 구간으로 과도한 장문/반복 붕괴 억제.
- 최종 보상 R = RC + RD + RL.
구현/세부셋팅(요지)
- SFT: 2 epoch, bs=128, lr=2e-5. / GRPO: 1 epoch, bs=64, lr=1e-5, 샘플 8개, KL 계수 0.04.
- 비디오 2fps 샘플링, 프레임 해상도 제한, 컨텍스트 32K 내 토큰 한도 관리.
- 비디오/오디오 인코더 고정, 어댑터+LLM만 업데이트.

평가 & 결과(요지)

AV 캡셔닝(직접 평가): Gemini-2.5-Pro/Flash, InternVL3.5(V 전용), Qwen2.5-VL(V), HumanOmniV2(7B), ARC-Hunyuan-Video(7B), MiniCPM-o-2.6(8B), Qwen2.5-Omni(7B), video-SALMONN-2(7B), UGC-VideoCaptioner(3B), Qwen3-Omni-Instruct/Captioner(30B-A3B). 결과는 공식 코드로 재현해 비교함.

벤치마크: video-SALMONN-2 testset, UGC-VideoCap, Daily-Omni, WorldSense, 그리고 시각 전용 VDC-Detailed, DREAM-1K.
직접 캡션 평가
- video-SALMONN-2: Total 에러율 최소화, 오픈소스 중 SOTA.
- UGC-VideoCap: Avg 73.2로, 최신 오픈소스 및 일부 상용 대비 경쟁력/우위.
QA로 간접 평가(캡션만 보고 답)
- Daily-Omni: 50.1%, WorldSense: 25.7%로 동급 대비 큰 폭 우세.
시각 전용
- VDC-Detailed Acc 47.4 / VDCscore 2.5, DREAM-1K F1 35.9로 비전만 평가에서도 경쟁력 확인.
Ablation
- RD 추가 시 대화 F1 +2%p 내외 향상, RL로 반복 붕괴율 대폭 감소(예: 2.4%→0.4%).
- 동일 2K로 SFT만 더 돌리면 큰 이득 없음 → 보상 설계 자체의 기여 확인.

기여 포인트

시간 정합된 AV 캡셔닝에 특화된 SFT+RL 파이프라인 설계.
대사 정확도/화자 일치를 직접 겨냥하는 대화 보상 도입.
짧은 UGC~멀티샷/시네마틱까지 아우르는 고품질 107K 데이터 공개 예고(오픈소스화).

한계 & 코멘트

생성·판정에 상용 LLM 의존(Gemini, GPT-4.1) → 데이터/보상의 모델 편향 가능성.
트레이닝 2fps/32K 한계로 초장편·고밀도 AV 커버리지 제약.
QA-by-caption은 심판 모델 의존적 평가(정답 거부 지침 포함) → 절대치 해석 주의.

당신 연구에 쓸 포인트(힌트)

AV 정합 캡션을 후속 태스크(검색/그라운딩/요약)의 중간 표현으로 사용.
댓글·자막 기반 대화 F1-류 보상을 그대로 모멘트 리트리벌의 텍스트 정밀도 측정에 응용 가능.
체크리스트 보상의 5축 분류는 데이터셋 라벨 프레임으로도 유용.

OmniVideoBench

OmniVideoBench는 길게는 30분짜리 실영상까지 포함해 오디오+비디오를 함께 이해해야만 풀 수 있는 객관식(MCQ) QA 1,000문항과 단계별 추론 트레이스로 구성된 AV 협력 추론 벤치마크. 최신 폐쇄형 모델조차 60% 미만 정답률에 머물러 음악·장기 영상·교차모달 추론의 난점을 드러냄.

왜 만들었나 (문제의식)

기존 벤치마크는 비전 편향 혹은 단일 모달로도 풀리는 문제가 많아, 실제 AV 상호보완 추론 능력을 측정하기 어려움.
특히 장기 시간 의존성, 음성·환경음·음악 같은 오디오 단서의 활용을 제대로 평가하지 못함.

어떻게 만들었나 (파이프라인/설계)

영상 수집: 유튜브·빌리빌리에서 628개 실영상(최소 480p, 수초~30분)을 8대 장르/68개 세부 카테고리로 균형 있게 선별. 자막 오버레이·중복 데이터는 배제.
문항 구성: 1,000개 QA를 13개 과제 유형(시공간 추론, 인과, 카운팅, 배경·음악 이해 등)으로 작성하고, 단계별 추론 체인(모달리티·증거·추론)을 인력으로 부착.
품질 보증:
- Unimodal 필터링: Gemini-2.0/2.5-Flash로 단일 모달만으로 풀리는 문항 제거.
- 텍스트 편향 제거: DeepSeek-V3.1로 옵션/문장 단서만으로 답 가능한 문항 수정/삭제.
- 최종 수기 검수: 정답 유일성·정확성 재확인 후 원자적(atomic) 추론 스텝으로 정제.

데이터 통계 (요지)

평균 길이 ~384초(6.4분), 해상도 최소 480p.
QA 1,000개, 질문 평균 14.7단어, 정답 평균 4.9단어, 추론 스텝 평균 5.68개(비전 54%·오디오 46%).
오디오 유형 분포: Speech 762 / Sound 147 / Music 91.

벤치마크 특성/비교

기존 AV-Odyssey·OmniBench 등 이미지 기반 또는 짧은 클립 중심 평가 대비, OmniVideoBench는 수초~30분 실영상을 다루며 도메인 다양성과 오디오 유형을 폭넓게 포함.
동일 조건에서 Qwen2.5-Omni-7B가 OmniVideoBench에선 29.3%로 랜덤 수준에 가깝고, 기존 일상형 벤치마크 대비 난도가 훨씬 높음.

주요 결과 (하이라이트)

최고 성능: Gemini-2.5-Pro 58.90%. 그 외 다수 모델은 50% 미만, 오픈소스는 대체로 랜덤 근처.
오디오 유형별 난이도: Music이 최난(예: Gemini-2.5-Pro 38.46%), Speech > Sound > Music 순으로 쉬움.
길이 효과: **프레임 샘플 수(32→256)**를 늘리면 전반적으로 정확도 상승, 장기 영상일수록 이득 큼.
ASR의 역할: 비전 전용/약한 Omni 모델에서 Visual+ASR > Visual Only, 하지만 ASR만으로 대체 불가(음악·비언어적 사운드 과제는 여전히 취약).
형식 효과: 오픈엔드 QA는 MCQ 대비 큰 폭 성능 하락 → 정답 옵션 단서에 기대는 경향을 드러냄.

무엇을 측정하나 (13개 과제 예)

Fine-grained Perception, Spatial/Temporal Reasoning, Counting, Causal/Relationship/Referential Reasoning, Summarization, Sentiment, Ego, Background & Music Understanding 등. 특히 배경·음악 이해가 모든 모델에 가장 어려움.

한계/주의

수기 제작 비용↑: 고품질이지만 생성·검수에 인력 의존.
최근 공개 영상 위주 선택으로 도메인 분포 편향 가능.
MCQ 중심 지표는 실사용 오픈엔드 질의 난도를 과소추정할 수 있어, 양쪽 지표를 함께 볼 것.

너의 연구에 바로 쓰는 팁

롱비디오 멀티모달 평가 세트로 채택: 네가 만드는 댓글·모달리티 게이팅 기반 모멘트 리트리벌이 실제 AV 협력 추론을 개선하는지 OmniVideoBench로 검증.
세팅 권장:
- 입력 프레임 ≥128(가능하면 256) + 원본 오디오 포함.
- 비전전용 베이스라인에는 ASR 텍스트 추가도 함께 보고(단, 음악/배경음 과제 한계 명시).
- 길이별 성능 곡선(≤1, 1–5, 5–10, 10–30분)과 오디오 유형별(Speech/Sound/Music) 브레이크다운을 함께 보고서에 포함.
분석 포인트: 실패 케이스 중 음악 주도, 장면 전환 잦은 장기 영상, 관계/인과 추론에서의 오답 패턴을 사례로 제시하면 설득력↑.

AN EMPIRICAL STUDY FOR REPRESENTATIONS OF VIDEOS IN VIDEO QUESTION ANSWERING VIA MLLMS

VideoQA에서 무엇을 입력(자막·프레임·오디오)으로 넣느냐가 정확도·VRAM·지연시간을 크게 좌우한다. 자막(S)은 가볍고 특히 롱비디오에서 효과적, 프레임(V)은 정확도↑지만 비용(메모리·시간) 최댓값, S+V 조합이 대체로 최고 성능.

무엇을 했나

벤치마크: VideoMME, LongVideoBench(Val.).
모델: LLaVA-video 7B/72B, Qwen2.5-VL 7B/72B, video-SALMONN-2 (7B/72B, +변형).
입력 조합 비교: Q, Q+S, Q+V, Q+S+V, (SALMONN 계열은 Q+A+V).
자막 파이프라인: VAD(WebRTC)로 구간 → Whisper-Large-v3로 ASR.

주요 결과

정확도
- 롱비디오(특히 VideoMME의 long 구간)에서는 자막(S)이 프레임(V)보다 효과적.
- S+V가 대부분의 경우 최고. A+V보다 S+V가 Qwen2.5-VL에서 ~3.6–3.7%p 높음.
- 질문만(Q)도 랜덤 대비 7B≥+15%p / 72B≥+20%p(상식 지식 효과).
효율성
- VRAM·지연시간의 병목은 프레임(V). 7B에서도 메모리 거의 2배 수준, 지연은 시간 단위까지 증가.
- 자막(S) 추가는 오버헤드 미미.
종합 결론: S는 가벼운 강점, V는 비싸지만 성능 견인, S+V가 베스트 프랙티스. 오디오는 보완적이나, 모든 모델에 필수는 아님.

728x90

저작자표시 (새창열림)

파이톨치

Omni Captioning Papers 본문

Omni Captioning Papers

Omni Captioning Papers

AVoCaDO

OmniVideoBench

AN EMPIRICAL STUDY FOR REPRESENTATIONS OF VIDEOS IN VIDEO QUESTION ANSWERING VIA MLLMS

티스토리툴바