파이톨치

MLVU: Multi-task Long Video Understanding Benchmark 본문

논문

MLVU: Multi-task Long Video Understanding Benchmark

파이톨치 2025. 5. 25. 21:02
728x90

🔍 왜 이렇게 접근했는가?

기존의 비디오 이해 벤치마크들은 세 가지 한계를 가짐:

  1. 짧은 영상만 포함되어 있어서 Long Video Understanding (LVU)을 평가하기 어렵다.
  2. 영상 장르나 과제가 다양하지 않음 → 실제 활용 시나리오 반영 어려움.
  3. 질문 자체가 비디오 맥락을 요구하지 않음 → 예: 유명한 영화나 인물에 대한 지식만으로 답 가능.

, 현재의 MLLM(Multimodal LLM)들이 "진짜로" 긴 영상 이해를 잘하는지 알 수 없었음.

🛠 어떻게 접근했는가? (벤치마크 구성 방식)

MLVU는 아래 세 가지 핵심 아이디어를 바탕으로 설계되었어:

1. 다양한 영상 길이

  • 3분 ~ 2시간짜리 영상 포함.
  • 각 영상은 3분/6분/전체 등 다양한 길이로 나눠서 평가 가능.
  • 예: 2시간짜리 영화를 3분 단위로 잘라서 부분적 평가도 가능.

2. 다양한 영상 장르

  • 실세계 영상: 영화, 다큐, 일상 영상, 스포츠, CCTV
  • 시뮬레이션: 게임 영상, 만화 등

→ 현실적인 환경을 시뮬레이션해서 평가할 수 있음.

3. 9가지 과제로 구성된 평가 태스크

  • 단일 프레임 수준이 아니라, 전체적인 시퀀스, 디테일, 복합 reasoning을 포함.
  • 태스크 유형:
    • Holistic: 전체 맥락 사용
    • Single-Detail: 특정 장면만 사용
    • Multi-Detail: 여러 장면 종합 reasoning

📦 어떤 예시로 구성되어 있는가?

🔵 Holistic LVU 예시

  • Topic Reasoning (TR): 영상 전체를 보고 주제 파악하기 (예: "이 영상의 장르는 무엇인가?")
  • Anomaly Recognition (AR): CCTV에서 이상행동 찾아내기 (예: "이 영상에서 비정상적인 행동은?")
  • Video Summarization (VS): 영상 요약 (예: “이 영상의 핵심 내용을 요약하시오.”)

🟢 Single-Detail LVU 예시

  • Needle QA (NQA): 긴 영상 속에 "짧은 needle clip" 삽입 → 해당 내용을 찾기
    • 📌 예: "물건을 떨어뜨리는 장면에서 인물은 무엇을 하고 있었는가?"
  • Ego Reasoning (ER): 1인칭 시점에서 특정 행동의 원인/결과 reasoning
    • 📌 예: "손을 씻기 전, 인물은 무엇을 했는가?"
  • Plot QA (PQA): 스토리 기반 질문
    • 📌 예: "쥐가 도망간 이유는 무엇인가?" → 단, '톰'과 '제리' 같은 이름은 제공 안 함.
  • Sub-Scene Captioning (SSC): 특정 장면 캡션 생성

🟣 Multi-Detail LVU 예시

  • Action Order (AO): 여러 행동 순서 맞추기
    • 📌 예: "다음 중 올바른 행동 순서는?" → 요리 순서 등
  • Action Count (AC): 특정 행동이 몇 번 등장했는지 세기
    • 📌 예: "사람이 문을 여는 장면은 몇 번 있었는가?"

📊 어떤 결과가 나왔는가?

전반적 결과 (Table 2 기준)

모델M-Avg (선택형 정확도)G-Avg (생성 품질)
GPT-4o 54.5% 5.87 / 10.0
LLaVA-Onevision 51.7% 4.42
Video-XL 46.3% 4.21
VideoLLaMA2 48.4% 3.95
 
  • 📉 GPT-4o조차도 NQA(Needle QA)에서는 42.9% 밖에 못함.
  • 📉 복잡한 추론이 필요한 AO, AC에서는 대부분 모델이 망함.
  • 🧠 성능은 "영상 길이" 늘어날수록 급격히 하락함.

⚠️ 어떤 한계가 있는가?

  1. 여전히 대부분 MLLM이 multi-detail task에서 약함
    • 특히 "순서 맞추기"나 "횟수 세기" 같은 건 GPT-4o도 고전.
  2. 긴 문맥 유지가 어려움
    • 성능은 3분 → 6분 → 10분으로 갈수록 급감.
    • 일부 모델은 10분 넘으면 random 수준으로 떨어짐.
  3. 세 가지 요소가 LVU 성능에 큰 영향
    • Context Length: 입력 프레임 수가 많을수록 좋음.
    • Image Understanding 능력: 기본 비전 성능 중요.
    • LLM Backbone 성능: Vicuna-13B > Vicuna-7B, Mistral-7B > LLaMA-2

✍️ 정리 요약

항목내용
목적 진짜 Long Video 이해 능력 평가
핵심 구성 다양한 길이 + 다양한 장르 + 9가지 세분화 태스크
예시 기반 접근 전체 요약, 특정 장면 QA, 순서 맞추기 등
결과 요약 GPT-4o도 완벽하지 않음. 대부분 모델은 multi-detail에서 붕괴
의의 다양한 길이, 장르, 디테일 수준에서 MLLM의 한계 분석 가능
728x90