250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- 오블완
- video retireval
- 경사하강법
- 재귀
- end to end
- 9020
- streamlit
- 기계학습
- 백트래킹
- pyenv
- 1002
- 손실함수
- 1101
- 개발환경
- 티스토리챌린지
- BOJ
- 백준
- n과 m
- 신경망 학습
- 4948
- 가상환경
- 그리디 알고리즘
- 파이썬
- Retrieval
- Python
- REST API
- 파이싼
- 15649
- N-Queen
- 밑바닥부터 시작하는 딥러닝
Archives
- Today
- Total
파이톨치
VIDEOEVAL-PRO 본문
728x90
🎯 왜 이런 접근을 했는가? (문제 인식과 목적)
🔍 기존 LVU 벤치마크의 한계
- MCQ 포맷 위주
- 대부분의 기존 Long Video Understanding(LVU) 벤치마크들은 객관식(MCQ) 중심이었음.
- 이로 인해 모델이 "찍어서 맞추거나", "선지의 힌트를 보고 정답을 유추"할 수 있음.
- 예: Gemini-1.5-Pro는 Video-MME에서 랜덤 프레임 하나만으로도 50% 정확도를 낼 수 있었음 → 진정한 영상 이해가 아님.
- 프레임 수 증가와 성능 무관
- 보통 더 많은 프레임을 입력하면 정확도가 높아져야 하지만, 기존 벤치마크에서는 성능이 오히려 떨어지거나 정체됨.
- 이는 질문이 짧은 단서만으로도 답할 수 있을 만큼 쉬움을 의미함.
🎯 해결 목표
- 모델이 진짜로 긴 영상 전체를 이해 해야만 답할 수 있는 질문을 만들자!
- 객관식이 아닌 주관식 단답형(open-ended short answer)으로 바꾸면:
- 찍기 불가능
- 진짜 영상 분석 필요
🧭 어떻게 접근했는가? (데이터 구성 방식)
1. 📦 데이터 수집
- 기존 4개 벤치마크에서 객관식 문제를 가져와 주관식으로 변환함:
- LVBench, Video-MME, LongVideoBench, MLVU
2. 🔍 데이터 필터링 전략
이 단계가 VIDEOEVAL-PRO의 핵심!
필터링 기준목적예시
📏 영상 길이 필터 | 10분 미만 영상 제거 → 진짜 "롱" 비디오만 남김 | 짧은 TikTok 같은 영상은 제거 |
✂️ 답변 길이 필터 | 너무 긴 주관식은 평가 어려움 → 평균 5단어 이하 유지 | “이 비디오는 무엇에 관한가요?” 같은 질문 제거 |
🤔 정답 가능성 필터 | 선지 없이는 이해 안 되는 질문 제거 | “다음 보기 중 가장 적절한 것은?” 류 제거 |
🎯 난이도 필터 | 한 프레임으로도 맞출 수 있는 질문 제거 | Gemini가 1프레임만 보고도 맞히는 질문 제거 |
🛠️ 어떤 방식으로 평가했는가?
💡 LLM-as-a-Judge
- GPT-4o를 사용해 모델의 답변을 평가 (SimpleQA 룰 기반)
- 3가지 분류:
- CORRECT (정답과 일치)
- INCORRECT (틀림, 헷갈림, 모호함 포함)
- NOT_ATTEMPTED (회피하거나 일부만 답변)
✍️ 평가 예시
질문 (VideoEval-Pro)모델 답변 예시평가 이유
“토론토의 전쟁 추모 기념관에는 무엇이 있나요?” | “말 동상” | ❌ 틀림 (정답은 "캐나다 국기") |
“이 영상에 등장하는 사람 수는?” | “20명” | ❌ 실제는 15명 (객관식은 맞췄지만 주관식은 틀림) |
🧪 어떤 결과가 나왔는가? (실험 결과)
1. 📉 MCQ vs Open-Ended 성능 비교
- 대부분의 모델에서 25% 이상의 정확도 감소
- 예: GPT-4o → MCQ 59.5% vs 주관식 34.2%
- 예: Gemini-1.5-Pro → MCQ 63.4% vs 주관식 39.3%
2. 🧠 Perception vs Reasoning 성능
- Perception (객체 인식, 행위 탐지) 성능 > Reasoning (사건 이해, 서사 구조)
- 예: Gemini-2.5-Flash
- LP: 42.4%
- LR: 30.6%
- HR: 26.9%
- 예: Gemini-2.5-Flash
3. 🧩 Local vs Holistic 이해
- Local (짧은 구간) 문제는 잘 푸나
- Holistic (전체 영상) 문제는 어려워함
4. 🪜 프레임 수 증가 효과
- 기존 Video-MME: 256 프레임 이후 성능 하락
- VIDEOEVAL-PRO: 프레임 수 증가할수록 꾸준히 성능 향상
→ 장기적 맥락 이해 필요하다는 반증
🧱 어떤 구조로 구성되어 있는가?
분류하위 유형 (예시)
Local Perception (59%) | 객체 인식, 행위 인식, 핵심정보 찾기 등 |
Local Reasoning (11%) | 시간 순서 추론, 행위 결과 추론 등 |
Holistic Perception (10%) | 전체에서의 카운팅 등 |
Holistic Reasoning (21%) | 사건 흐름, 플롯 이해 등 |
📉 한계점은?
- LLM-as-a-Judge의 편향 가능성
- GPT-4o가 정답 채점 기준으로 사용되기 때문에 편향된 판단이 있을 수 있음
- 정답 평가의 모호성
- 주관식은 MCQ보다 정답/오답 경계가 불명확함
- 제작 비용과 시간
- 256~512 프레임 처리에 모델당 수십 시간 GPU 자원 소요
✅ 정리: 이 접근의 장점은?
기존 벤치마크 문제점VIDEOEVAL-PRO 해결 방법
찍기 가능 (MCQ 힌트) | 객관식 → 주관식으로 전환 |
프레임 많아도 성능 증가 안됨 | 진짜로 프레임 수 증가에 따른 성능 향상 보임 |
전반적 평가 어려움 | Local/Global, Perception/Reasoning을 구분해서 평가 |
쉬운 질문 포함 가능성 | 영상 길이, 난이도 기반 필터링으로 제거 |
📌 예시로 다시 정리
질문 유형기존 MCQ 응답VIDEOEVAL-PRO 응답평가 결과
“말이 끄는 수레는 무엇인가?” | D. Ox cart | “말이 끈다” | ❌ 오답 |
“몇 명 등장하나요?” | C. 15 | “20명” | ❌ 오답 |
“기념관에 있는 것은?” | B. 캐나다 국기 | “말 동상” | ❌ 오답 |
728x90