파이톨치

LONGVIDEOBENCH: A Benchmark for Long-context Interleaved Video-Language Understanding 본문

논문

LONGVIDEOBENCH: A Benchmark for Long-context Interleaved Video-Language Understanding

파이톨치 2025. 5. 21. 15:11
728x90

✅ 왜 이렇게 접근했는가? (동기)

문제의식:

기존 비디오-텍스트 벤치마크들은 대부분 짧은 비디오(수십 초~3분) 위주이고, 심지어 몇 개의 대표 프레임만으로도 풀 수 있는 문제들이 많아 실제 LMM의 "길고 복잡한" 입력 처리 능력을 평가하기엔 부족함.

  • Single-frame bias: 모델이 많은 프레임을 보더라도 성능이 크게 개선되지 않음 → 장시간 맥락 이해를 필요로 하지 않기 때문.
  • 텍스트 LLM과의 격차: 최근 GPT-4, Gemini 같은 LLM들은 128K 이상의 긴 컨텍스트를 이해할 수 있게 되었지만, 멀티모달 LMM에 대한 긴 컨텍스트 벤치마크는 거의 없음.

목표:

LMM이 1시간까지의 비디오 + 자막정밀하게 참조하고 복잡하게 추론할 수 있는지를 평가하는 새로운 벤치마크를 만들자.

🔍 어떻게 접근했는가? (방법)

핵심 설계: Referring Reasoning이라는 새로운 QA 과제 제안

  • 질의문에 referring query가 포함되어 있음: 특정 장면, 자막, 객체 등을 "참조"하도록 유도
  • 정답은 반드시 그 참조된 맥락(referred context)에서 추론되어야만 맞힐 수 있음
  • Multiple-choice 형태로 구성 (정답 + 혼동 유도 distractors)

예시:

질문: “초반부, 붉은 옷과 검은 배낭을 멘 여성이 바위 언덕을 내려올 때, 배낭에 어떤 변화가 생기나요?”
→ 이건 "referring reasoning" 중 Object Attribute Change 유형임

🧠 어떤 방식으로 구성되었는가? (구체적 구성)

(1) 비디오-자막 데이터 수집

  • 99개 채널에서 3,763개의 비디오 수집
  • 자막 미포함 비디오는 Whisper-V3로 자동 전사
  • 전처리 후 품질(Q-Align 점수) 기준으로 필터링

(2) 질문 설계

  • 총 6,678개의 multiple-choice 문제 생성
  • 질문마다 referring query질문 본문이 포함됨
  • 길이대별(8~3600초), 주제별(일상, 영화, 뉴스, 지식)로 다양하게 분포
  • 17개 세부 유형으로 분류됨:
분류의미예시

 

(L1) Perception 단일 장면 내의 객체/행동 이해 “붓으로 노란 액체를 바르고 있던 음식은 무엇인가?”
(L2) Relation 복수 장면 간의 관계 추론 “이 장면 이후에 여성이 한 행동은 무엇인가?”
 
📊 어떤 결과가 나왔는가? (실험 결과)

(1) 긴 입력을 처리할 수 있을수록 성능 향상

  • GPT-4o, Gemini-1.5-Pro 등은 input frame 수가 늘어날수록 정확도가 확연히 증가함
    → (900~3600초) 비디오에서 GPT-4o는 36% → 66.7%로 향상

(2) 오픈소스 모델은 성능 향상 거의 없음

  • IDEFICS2, MANTIS 등은 frame 수 늘리면 오히려 정확도 하락
    → 긴 입력 처리 및 통합 능력 부족

(3) Relation(L2) 질문이 더 어려움

  • 특히 Sequence of Scenes (SSS) 항목이 가장 낮은 정확도를 보임
    → 장면 간 순서 추론에 약함

(4) Referring Query의 거리 영향을 받음

  • 질문에서 참조된 장면이 비디오 초반 또는 중간일수록 모델 성능 하락
    → Query-to-Context 거리 문제 발생

🔎 예시 기반 설명

예시 1: (L1) Scene-referred Event

“왼쪽 상단에 ‘wanna make a meaningful connection’이 적힌 장면에서, 하얀 하트 무늬 옷을 입은 남성은 무엇을 하고 있는가?”

→ 이 문제는 시각적 세부사항 인식 + 특정 장면 recall이 필요함

예시 2: (L2) Sequence of Scenes

“사진첩 장면 → 만화쥐 그림 → 앱 아이콘 장면 순이 맞는가?”

→ 단순 frame-level 인식이 아니라 복수 장면 간 시간 순서 이해가 필요

⚠️ 어떤 한계가 있는가?

  1. Annotation 비용: 모든 질문은 사람이 직접 보고 작성 + 검토 + 수정 → 대규모 생성에는 시간과 비용이 큼
  2. Latency 이슈: Referring query가 중간 또는 초반에 있는 경우, 모델은 더 긴 컨텍스트 추론이 필요해 연산량 증가
  3. 모델 훈련 데이터와의 도메인 차이: LONGVIDEOBENCH는 자막이 많은 생활/지식 영상 기반인데, 기존 LMM은 짧은 영상이나 이미지 중심 훈련으로 성능 저하
  4. (L2) Relation 질문 한계: 현재 모델들이 Temporal Reasoning (시점 간 관계)에서 전반적으로 약함 → 연구 필요성 강조

🏁 요약

LONGVIDEOBENCH는 LMM의 진짜 실력을 보기 위한 리얼리티 체크이다.
Referring reasoning이라는 강제적인 맥락 추론 기반 QA를 통해, 단순 요약이 아닌 복잡한 장면 이해 및 관계 추론을 요구한다. GPT-4o 같은 최신 모델조차도 중간/후반 referring query에서는 성능 저하가 발생하며, open-source 모델들은 아예 input 길이에 따른 이득조차 없다. → 향후 긴 컨텍스트 멀티모달 모델의 개선 방향성을 제공한다.

728x90