일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 밑바닥부터 시작하는 딥러닝
- BOJ
- n과 m
- 티스토리챌린지
- end to end
- 가상환경
- 신경망 학습
- Python
- 파이싼
- 파이썬
- REST API
- 1101
- video retireval
- streamlit
- pyenv
- 백트래킹
- 기계학습
- 오블완
- 개발환경
- Retrieval
- 재귀
- 경사하강법
- 그리디 알고리즘
- 백준
- 4948
- 15649
- N-Queen
- 9020
- 손실함수
- 1002
- Today
- Total
파이톨치
MMR-V: What’s Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos 본문
MMR-V: What’s Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos
파이톨치 2025. 6. 5. 14:32논문 MMR-V: What’s Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos는 기존 비디오 벤치마크가 갖는 한계를 극복하고, 진정한 멀티모달 추론 능력을 평가하기 위해 새롭게 제안된 벤치마크입니다. 아래에 논문이 왜 이런 방식으로 접근했는지, 어떻게 접근했는지, 예시와 함께 어떤 기법을 사용했는지, 실험 결과 및 한계를 상세히 설명드릴게요.
❓ 왜 이런 방식으로 접근했는가?
기존 비디오 벤치마크의 한계:
- 대부분 지각(perception) 위주의 단순한 이해 과제 (ex. 특정 프레임에서 일어난 일 묘사)
- 질문이 언급한 프레임과 인접 프레임만 보면 해결되는 근시안적 reasoning
- 진짜 "이유", "감정", "의도", "상징성" 등은 평가하지 않음
- 모델이 멀티프레임 reasoning 또는 **숨겨진 의미 추론(hidden implications)**을 하지 않아도 높은 점수를 받을 수 있음
MMR-V는 현실적인 시나리오에서 요구되는 deep reasoning 능력을 측정하기 위해 등장했음.
🧠 어떻게 접근했는가?
MMR-V는 3가지 원칙에 따라 벤치마크를 설계함:
P1. Multi-frame | 인접 프레임이 아니라, 멀리 떨어진 증거 프레임들을 통합해야 해결 가능 |
P2. Deep Reasoning | 표면적 인식만으로는 답할 수 없고, 추론, 상징 해석, 인과 관계 분석이 필요 |
P3. Realistic | 실제 사용자 인식과 유사하게 구성 (인기 영상 댓글 기반) |
🎬 예시를 통한 설명
1. Implicit Reasoning (숨겨진 의미 추론)
예시: Metaphor Understanding
질문: What does the brown coat in the video symbolize?
정답: It symbolizes the father in a family, who protects his family in times of difficulty.
→ 겉보기에 그냥 코트지만, 아버지의 상징이라는 숨겨진 의미를 읽어야 정답 도출 가능
예시: Theme Understanding
질문: What social issue does this video imply?
정답: People face great pressure in buying homes, as housing prices increase while they are saving money.
→ 직접 언급되지 않지만 영상 전체에서 느껴지는 사회적 메시지를 유추
2. Explicit Reasoning (구체적 논리 추론)
예시: Sequential Reasoning
질문: Is the video played in reverse? Why?
정답: It is not played in reverse; you can tell from the man spraying away the letter 'P' from the wall.
→ 영상 전체를 보고 순서적 단서를 찾아야 함
예시: Counterintuitive Reasoning
질문: How does the man make the pen disappear?
→ 실제 마술 장면을 분석하고, 프레임 간 차이를 논리적으로 설명해야 함 (카메라 컷, 손의 위치 등)
🔍 어떤 방식으로 구성했는가?
✅ 비디오 수집
- Youtube에서 인기 있고, 단순하지 않은 구조를 가진 영상만 수집
- 창의성과 의도적 연출이 있는 영상만 포함
- 애니메이션, 영화, 예술, TV, 철학 등 다양한 도메인 포함
✅ 문제 구성
- 총 1257개 질문, 각 질문당 평균 10개의 보기
- 정답 1개 + GPT-4o 기반 모델이 틀린 오답을 선택적으로 채택하여 혼란 유발 distractor로 사용
- Implicit / Explicit Reasoning 기준으로 10개 주요 task 유형과 33개의 하위 유형으로 분류됨
📊 실험 결과 요약
- 최고 성능 모델도 정답률 52.5% (o4-mini) 에 그침 → 인간 성능인 86%와 큰 차이
- CoT (Chain-of-Thought) 사용해도 향상은 0.5% 수준 → 기존 텍스트 중심 CoT는 멀티모달 reasoning에 충분하지 않음
- 대부분의 CoT가 텍스트 기반 reasoning에 치우침 → 질문 프레임 몇 개만 보고 나머지는 언어 기반 추론
- 오히려 비질문 프레임에 대한 분석을 많이 한 모델일수록 성능이 높음 (o4-mini)
🔍 한계와 Error Analysis
- 주요 오류 유형:
- Lack of Visual Reasoning (47%): 프레임 간 연관성 파악 실패
- Implicit Misinterpretation (26%): 상징, 은유, 감정 해석 실패
- Knowledge 부족, 추론 오류, 환각 (Hallucination)
- 프레임 수 증가는 성능 향상에 도움 되지만, 일정 이후 성능 향상 둔화 → 멀티프레임 추론 능력 한계 때문
- 오디오 사용 시 성능 향상: 일부 모델에서 최대 +1.9% 향상 → 오디오도 reasoning에 도움을 줄 수 있음
📌 결론 및 의의
MMR-V는 단순 인식이 아니라 **"생각하는 모델"**을 평가하기 위한 최초의 체계적 벤치마크 중 하나임.
- 단순히 "이게 무슨 장면이야?"에서 벗어나
- "이 장면이 상징하는 건 뭘까?", "왜 이 일이 일어났지?", "뒤에 어떤 감정이 숨어있지?"와 같은 고차원적 질문을 요구
이는 향후 VLM (Vision Language Model)이 실제 인간처럼 영상을 이해하고 reasoning 하는 데 필수적인 능력임.
'논문' 카테고리의 다른 글
QA-TIGER: Question-Aware Gaussian Experts for Audio-Visual Question Answering (0) | 2025.06.05 |
---|---|
YTCommentQA: Video Question Answerability in Instructional Videos (4) | 2025.06.05 |
VIDEOREASONBENCH: Can MLLMs PerformVision-Centric Complex Video Reasoning? (2) | 2025.06.01 |
Watch and Listen: UnderstandingAudio-Visual-Speech Moments with Multimodal LLM (0) | 2025.05.26 |
ViQAgent (0) | 2025.05.26 |