250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- 경사하강법
- Retrieval
- 신경망 학습
- 재귀
- 4948
- 백준
- 기계학습
- N-Queen
- 손실함수
- n과 m
- 티스토리챌린지
- Python
- streamlit
- 개발환경
- 백트래킹
- REST API
- 오블완
- 파이썬
- end to end
- BOJ
- 가상환경
- 파이싼
- 1101
- video retireval
- 1002
- 15649
- 그리디 알고리즘
- 9020
- 밑바닥부터 시작하는 딥러닝
- pyenv
Archives
- Today
- Total
파이톨치
MLVU: Multi-task Long Video Understanding Benchmark 본문
728x90
🔍 왜 이렇게 접근했는가?
기존의 비디오 이해 벤치마크들은 세 가지 한계를 가짐:
- 짧은 영상만 포함되어 있어서 Long Video Understanding (LVU)을 평가하기 어렵다.
- 영상 장르나 과제가 다양하지 않음 → 실제 활용 시나리오 반영 어려움.
- 질문 자체가 비디오 맥락을 요구하지 않음 → 예: 유명한 영화나 인물에 대한 지식만으로 답 가능.
→ 즉, 현재의 MLLM(Multimodal LLM)들이 "진짜로" 긴 영상 이해를 잘하는지 알 수 없었음.
🛠 어떻게 접근했는가? (벤치마크 구성 방식)
MLVU는 아래 세 가지 핵심 아이디어를 바탕으로 설계되었어:
1. 다양한 영상 길이
- 3분 ~ 2시간짜리 영상 포함.
- 각 영상은 3분/6분/전체 등 다양한 길이로 나눠서 평가 가능.
- 예: 2시간짜리 영화를 3분 단위로 잘라서 부분적 평가도 가능.
2. 다양한 영상 장르
- 실세계 영상: 영화, 다큐, 일상 영상, 스포츠, CCTV
- 시뮬레이션: 게임 영상, 만화 등
→ 현실적인 환경을 시뮬레이션해서 평가할 수 있음.
3. 9가지 과제로 구성된 평가 태스크
- 단일 프레임 수준이 아니라, 전체적인 시퀀스, 디테일, 복합 reasoning을 포함.
- 태스크 유형:
- Holistic: 전체 맥락 사용
- Single-Detail: 특정 장면만 사용
- Multi-Detail: 여러 장면 종합 reasoning
📦 어떤 예시로 구성되어 있는가?
🔵 Holistic LVU 예시
- Topic Reasoning (TR): 영상 전체를 보고 주제 파악하기 (예: "이 영상의 장르는 무엇인가?")
- Anomaly Recognition (AR): CCTV에서 이상행동 찾아내기 (예: "이 영상에서 비정상적인 행동은?")
- Video Summarization (VS): 영상 요약 (예: “이 영상의 핵심 내용을 요약하시오.”)
🟢 Single-Detail LVU 예시
- Needle QA (NQA): 긴 영상 속에 "짧은 needle clip" 삽입 → 해당 내용을 찾기
- 📌 예: "물건을 떨어뜨리는 장면에서 인물은 무엇을 하고 있었는가?"
- Ego Reasoning (ER): 1인칭 시점에서 특정 행동의 원인/결과 reasoning
- 📌 예: "손을 씻기 전, 인물은 무엇을 했는가?"
- Plot QA (PQA): 스토리 기반 질문
- 📌 예: "쥐가 도망간 이유는 무엇인가?" → 단, '톰'과 '제리' 같은 이름은 제공 안 함.
- Sub-Scene Captioning (SSC): 특정 장면 캡션 생성
🟣 Multi-Detail LVU 예시
- Action Order (AO): 여러 행동 순서 맞추기
- 📌 예: "다음 중 올바른 행동 순서는?" → 요리 순서 등
- Action Count (AC): 특정 행동이 몇 번 등장했는지 세기
- 📌 예: "사람이 문을 여는 장면은 몇 번 있었는가?"
📊 어떤 결과가 나왔는가?
전반적 결과 (Table 2 기준)
모델M-Avg (선택형 정확도)G-Avg (생성 품질)
GPT-4o | 54.5% | 5.87 / 10.0 |
LLaVA-Onevision | 51.7% | 4.42 |
Video-XL | 46.3% | 4.21 |
VideoLLaMA2 | 48.4% | 3.95 |
- 📉 GPT-4o조차도 NQA(Needle QA)에서는 42.9% 밖에 못함.
- 📉 복잡한 추론이 필요한 AO, AC에서는 대부분 모델이 망함.
- 🧠 성능은 "영상 길이" 늘어날수록 급격히 하락함.
⚠️ 어떤 한계가 있는가?
- 여전히 대부분 MLLM이 multi-detail task에서 약함
- 특히 "순서 맞추기"나 "횟수 세기" 같은 건 GPT-4o도 고전.
- 긴 문맥 유지가 어려움
- 성능은 3분 → 6분 → 10분으로 갈수록 급감.
- 일부 모델은 10분 넘으면 random 수준으로 떨어짐.
- 세 가지 요소가 LVU 성능에 큰 영향
- Context Length: 입력 프레임 수가 많을수록 좋음.
- Image Understanding 능력: 기본 비전 성능 중요.
- LLM Backbone 성능: Vicuna-13B > Vicuna-7B, Mistral-7B > LLaMA-2
✍️ 정리 요약
항목내용
목적 | 진짜 Long Video 이해 능력 평가 |
핵심 구성 | 다양한 길이 + 다양한 장르 + 9가지 세분화 태스크 |
예시 기반 접근 | 전체 요약, 특정 장면 QA, 순서 맞추기 등 |
결과 요약 | GPT-4o도 완벽하지 않음. 대부분 모델은 multi-detail에서 붕괴 |
의의 | 다양한 길이, 장르, 디테일 수준에서 MLLM의 한계 분석 가능 |
728x90
'논문' 카테고리의 다른 글
ViQAgent (0) | 2025.05.26 |
---|---|
VIDEOEVAL-PRO (2) | 2025.05.25 |
Breaking Down Video LLM Benchmarks: Knowledge,Spatial Perception, or True Temporal Understanding? (2) | 2025.05.21 |
LONGVIDEOBENCH: A Benchmark for Long-context Interleaved Video-Language Understanding (2) | 2025.05.21 |
Video-MME: The First-Ever ComprehensiveEvaluation Benchmark of Multi-modalLLMs in Video Analysis (0) | 2025.05.20 |