VIDEOEVAL-PRO

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

파이톨치

VIDEOEVAL-PRO 본문

논문

VIDEOEVAL-PRO

파이톨치 2025. 5. 25. 21:34

728x90

🎯 왜 이런 접근을 했는가? (문제 인식과 목적)

🔍 기존 LVU 벤치마크의 한계

MCQ 포맷 위주
- 대부분의 기존 Long Video Understanding(LVU) 벤치마크들은 객관식(MCQ) 중심이었음.
- 이로 인해 모델이 "찍어서 맞추거나", "선지의 힌트를 보고 정답을 유추"할 수 있음.
- 예: Gemini-1.5-Pro는 Video-MME에서 랜덤 프레임 하나만으로도 50% 정확도를 낼 수 있었음 → 진정한 영상 이해가 아님.
프레임 수 증가와 성능 무관
- 보통 더 많은 프레임을 입력하면 정확도가 높아져야 하지만, 기존 벤치마크에서는 성능이 오히려 떨어지거나 정체됨.
- 이는 질문이 짧은 단서만으로도 답할 수 있을 만큼 쉬움을 의미함.

🎯 해결 목표

모델이 진짜로 긴 영상 전체를 이해 해야만 답할 수 있는 질문을 만들자!
객관식이 아닌 주관식 단답형(open-ended short answer)으로 바꾸면:
- 찍기 불가능
- 진짜 영상 분석 필요

🧭 어떻게 접근했는가? (데이터 구성 방식)

1. 📦 데이터 수집

기존 4개 벤치마크에서 객관식 문제를 가져와 주관식으로 변환함:
- LVBench, Video-MME, LongVideoBench, MLVU

2. 🔍 데이터 필터링 전략

이 단계가 VIDEOEVAL-PRO의 핵심!

필터링 기준목적예시

📏 영상 길이 필터	10분 미만 영상 제거 → 진짜 "롱" 비디오만 남김	짧은 TikTok 같은 영상은 제거
✂️ 답변 길이 필터	너무 긴 주관식은 평가 어려움 → 평균 5단어 이하 유지	“이 비디오는 무엇에 관한가요?” 같은 질문 제거
🤔 정답 가능성 필터	선지 없이는 이해 안 되는 질문 제거	“다음 보기 중 가장 적절한 것은?” 류 제거
🎯 난이도 필터	한 프레임으로도 맞출 수 있는 질문 제거	Gemini가 1프레임만 보고도 맞히는 질문 제거

🛠️ 어떤 방식으로 평가했는가?

💡 LLM-as-a-Judge

GPT-4o를 사용해 모델의 답변을 평가 (SimpleQA 룰 기반)
3가지 분류:
- CORRECT (정답과 일치)
- INCORRECT (틀림, 헷갈림, 모호함 포함)
- NOT_ATTEMPTED (회피하거나 일부만 답변)

✍️ 평가 예시

질문 (VideoEval-Pro)모델 답변 예시평가 이유

“토론토의 전쟁 추모 기념관에는 무엇이 있나요?”	“말 동상”	❌ 틀림 (정답은 "캐나다 국기")
“이 영상에 등장하는 사람 수는?”	“20명”	❌ 실제는 15명 (객관식은 맞췄지만 주관식은 틀림)

🧪 어떤 결과가 나왔는가? (실험 결과)

1. 📉 MCQ vs Open-Ended 성능 비교

대부분의 모델에서 25% 이상의 정확도 감소
- 예: GPT-4o → MCQ 59.5% vs 주관식 34.2%
- 예: Gemini-1.5-Pro → MCQ 63.4% vs 주관식 39.3%

2. 🧠 Perception vs Reasoning 성능

Perception (객체 인식, 행위 탐지) 성능 > Reasoning (사건 이해, 서사 구조)
- 예: Gemini-2.5-Flash
  - LP: 42.4%
  - LR: 30.6%
  - HR: 26.9%

3. 🧩 Local vs Holistic 이해

Local (짧은 구간) 문제는 잘 푸나
Holistic (전체 영상) 문제는 어려워함

4. 🪜 프레임 수 증가 효과

기존 Video-MME: 256 프레임 이후 성능 하락
VIDEOEVAL-PRO: 프레임 수 증가할수록 꾸준히 성능 향상
→ 장기적 맥락 이해 필요하다는 반증

🧱 어떤 구조로 구성되어 있는가?

분류하위 유형 (예시)

Local Perception (59%)	객체 인식, 행위 인식, 핵심정보 찾기 등
Local Reasoning (11%)	시간 순서 추론, 행위 결과 추론 등
Holistic Perception (10%)	전체에서의 카운팅 등
Holistic Reasoning (21%)	사건 흐름, 플롯 이해 등

📉 한계점은?

LLM-as-a-Judge의 편향 가능성
- GPT-4o가 정답 채점 기준으로 사용되기 때문에 편향된 판단이 있을 수 있음
정답 평가의 모호성
- 주관식은 MCQ보다 정답/오답 경계가 불명확함
제작 비용과 시간
- 256~512 프레임 처리에 모델당 수십 시간 GPU 자원 소요

✅ 정리: 이 접근의 장점은?

기존 벤치마크 문제점VIDEOEVAL-PRO 해결 방법

찍기 가능 (MCQ 힌트)	객관식 → 주관식으로 전환
프레임 많아도 성능 증가 안됨	진짜로 프레임 수 증가에 따른 성능 향상 보임
전반적 평가 어려움	Local/Global, Perception/Reasoning을 구분해서 평가
쉬운 질문 포함 가능성	영상 길이, 난이도 기반 필터링으로 제거

📌 예시로 다시 정리

질문 유형기존 MCQ 응답VIDEOEVAL-PRO 응답평가 결과

“말이 끄는 수레는 무엇인가?”	D. Ox cart	“말이 끈다”	❌ 오답
“몇 명 등장하나요?”	C. 15	“20명”	❌ 오답
“기념관에 있는 것은?”	B. 캐나다 국기	“말 동상”	❌ 오답

728x90

저작자표시 (새창열림)

'논문' 카테고리의 다른 글

Watch and Listen: UnderstandingAudio-Visual-Speech Moments with Multimodal LLM (0)	2025.05.26
ViQAgent (0)	2025.05.26
MLVU: Multi-task Long Video Understanding Benchmark (2)	2025.05.25
Breaking Down Video LLM Benchmarks: Knowledge,Spatial Perception, or True Temporal Understanding? (2)	2025.05.21
LONGVIDEOBENCH: A Benchmark for Long-context Interleaved Video-Language Understanding (2)	2025.05.21

'논문' Related Articles

파이톨치

VIDEOEVAL-PRO 본문

VIDEOEVAL-PRO

🎯 왜 이런 접근을 했는가? (문제 인식과 목적)

🔍 기존 LVU 벤치마크의 한계

🎯 해결 목표

🧭 어떻게 접근했는가? (데이터 구성 방식)

1. 📦 데이터 수집

2. 🔍 데이터 필터링 전략

💡 LLM-as-a-Judge

✍️ 평가 예시

1. 📉 MCQ vs Open-Ended 성능 비교

2. 🧠 Perception vs Reasoning 성능

3. 🧩 Local vs Holistic 이해

4. 🪜 프레임 수 증가 효과

🧱 어떤 구조로 구성되어 있는가?

📉 한계점은?

✅ 정리: 이 접근의 장점은?

📌 예시로 다시 정리

'논문' 카테고리의 다른 글

티스토리툴바