파이톨치

VIDEOEVAL-PRO 본문

논문

VIDEOEVAL-PRO

파이톨치 2025. 5. 25. 21:34
728x90

🎯 왜 이런 접근을 했는가? (문제 인식과 목적)

🔍 기존 LVU 벤치마크의 한계

  1. MCQ 포맷 위주
    • 대부분의 기존 Long Video Understanding(LVU) 벤치마크들은 객관식(MCQ) 중심이었음.
    • 이로 인해 모델이 "찍어서 맞추거나", "선지의 힌트를 보고 정답을 유추"할 수 있음.
    • 예: Gemini-1.5-Pro는 Video-MME에서 랜덤 프레임 하나만으로도 50% 정확도를 낼 수 있었음 → 진정한 영상 이해가 아님.
  2. 프레임 수 증가와 성능 무관
    • 보통 더 많은 프레임을 입력하면 정확도가 높아져야 하지만, 기존 벤치마크에서는 성능이 오히려 떨어지거나 정체됨.
    • 이는 질문이 짧은 단서만으로도 답할 수 있을 만큼 쉬움을 의미함.

🎯 해결 목표

  • 모델이 진짜로 긴 영상 전체를 이해 해야만 답할 수 있는 질문을 만들자!
  • 객관식이 아닌 주관식 단답형(open-ended short answer)으로 바꾸면:
    • 찍기 불가능
    • 진짜 영상 분석 필요

🧭 어떻게 접근했는가? (데이터 구성 방식)

1. 📦 데이터 수집

  • 기존 4개 벤치마크에서 객관식 문제를 가져와 주관식으로 변환함:
    • LVBench, Video-MME, LongVideoBench, MLVU

2. 🔍 데이터 필터링 전략

이 단계가 VIDEOEVAL-PRO의 핵심!

필터링 기준목적예시
📏 영상 길이 필터 10분 미만 영상 제거 → 진짜 "" 비디오만 남김 짧은 TikTok 같은 영상은 제거
✂️ 답변 길이 필터 너무 긴 주관식은 평가 어려움 → 평균 5단어 이하 유지 “이 비디오는 무엇에 관한가요?” 같은 질문 제거
🤔 정답 가능성 필터 선지 없이는 이해 안 되는 질문 제거 “다음 보기 중 가장 적절한 것은?” 류 제거
🎯 난이도 필터 한 프레임으로도 맞출 수 있는 질문 제거 Gemini가 1프레임만 보고도 맞히는 질문 제거
 
🛠️ 어떤 방식으로 평가했는가?

💡 LLM-as-a-Judge

  • GPT-4o를 사용해 모델의 답변을 평가 (SimpleQA 룰 기반)
  • 3가지 분류:
    • CORRECT (정답과 일치)
    • INCORRECT (틀림, 헷갈림, 모호함 포함)
    • NOT_ATTEMPTED (회피하거나 일부만 답변)

✍️ 평가 예시

질문 (VideoEval-Pro)모델 답변 예시평가 이유

 

“토론토의 전쟁 추모 기념관에는 무엇이 있나요?” “말 동상” ❌ 틀림 (정답은 "캐나다 국기")
“이 영상에 등장하는 사람 수는?” “20명” ❌ 실제는 15명 (객관식은 맞췄지만 주관식은 틀림)
 
🧪 어떤 결과가 나왔는가? (실험 결과)

1. 📉 MCQ vs Open-Ended 성능 비교

  • 대부분의 모델에서 25% 이상의 정확도 감소
    • 예: GPT-4o → MCQ 59.5% vs 주관식 34.2%
    • 예: Gemini-1.5-Pro → MCQ 63.4% vs 주관식 39.3%

2. 🧠 Perception vs Reasoning 성능

  • Perception (객체 인식, 행위 탐지) 성능 > Reasoning (사건 이해, 서사 구조)
    • 예: Gemini-2.5-Flash
      • LP: 42.4%
      • LR: 30.6%
      • HR: 26.9%

3. 🧩 Local vs Holistic 이해

  • Local (짧은 구간) 문제는 잘 푸나
  • Holistic (전체 영상) 문제는 어려워함

4. 🪜 프레임 수 증가 효과

  • 기존 Video-MME: 256 프레임 이후 성능 하락
  • VIDEOEVAL-PRO: 프레임 수 증가할수록 꾸준히 성능 향상
    → 장기적 맥락 이해 필요하다는 반증

🧱 어떤 구조로 구성되어 있는가?

분류하위 유형 (예시)
Local Perception (59%) 객체 인식, 행위 인식, 핵심정보 찾기 등
Local Reasoning (11%) 시간 순서 추론, 행위 결과 추론 등
Holistic Perception (10%) 전체에서의 카운팅 등
Holistic Reasoning (21%) 사건 흐름, 플롯 이해 등
 

📉 한계점은?

  1. LLM-as-a-Judge의 편향 가능성
    • GPT-4o가 정답 채점 기준으로 사용되기 때문에 편향된 판단이 있을 수 있음
  2. 정답 평가의 모호성
    • 주관식은 MCQ보다 정답/오답 경계가 불명확함
  3. 제작 비용과 시간
    • 256~512 프레임 처리에 모델당 수십 시간 GPU 자원 소요

✅ 정리: 이 접근의 장점은?

기존 벤치마크 문제점VIDEOEVAL-PRO 해결 방법
찍기 가능 (MCQ 힌트) 객관식 → 주관식으로 전환
프레임 많아도 성능 증가 안됨 진짜로 프레임 수 증가에 따른 성능 향상 보임
전반적 평가 어려움 Local/Global, Perception/Reasoning을 구분해서 평가
쉬운 질문 포함 가능성 영상 길이, 난이도 기반 필터링으로 제거
 

📌 예시로 다시 정리

질문 유형기존 MCQ 응답VIDEOEVAL-PRO 응답평가 결과
“말이 끄는 수레는 무엇인가?” D. Ox cart “말이 끈다” ❌ 오답
“몇 명 등장하나요?” C. 15 “20명” ❌ 오답
“기념관에 있는 것은?” B. 캐나다 국기 “말 동상” ❌ 오답
728x90