파이톨치

MMR-V: What’s Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos 본문

논문

MMR-V: What’s Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos

파이톨치 2025. 6. 5. 14:32
728x90

논문 MMR-V: What’s Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos는 기존 비디오 벤치마크가 갖는 한계를 극복하고, 진정한 멀티모달 추론 능력을 평가하기 위해 새롭게 제안된 벤치마크입니다. 아래에 논문이 왜 이런 방식으로 접근했는지, 어떻게 접근했는지, 예시와 함께 어떤 기법을 사용했는지, 실험 결과 및 한계상세히 설명드릴게요.

❓ 왜 이런 방식으로 접근했는가?

기존 비디오 벤치마크의 한계:

  • 대부분 지각(perception) 위주의 단순한 이해 과제 (ex. 특정 프레임에서 일어난 일 묘사)
  • 질문이 언급한 프레임과 인접 프레임만 보면 해결되는 근시안적 reasoning
  • 진짜 "이유", "감정", "의도", "상징성" 등은 평가하지 않음
  • 모델이 멀티프레임 reasoning 또는 **숨겨진 의미 추론(hidden implications)**을 하지 않아도 높은 점수를 받을 수 있음

MMR-V는 현실적인 시나리오에서 요구되는 deep reasoning 능력을 측정하기 위해 등장했음.

🧠 어떻게 접근했는가?

MMR-V는 3가지 원칙에 따라 벤치마크를 설계함:

원칙설명
P1. Multi-frame 인접 프레임이 아니라, 멀리 떨어진 증거 프레임들을 통합해야 해결 가능
P2. Deep Reasoning 표면적 인식만으로는 답할 수 없고, 추론, 상징 해석, 인과 관계 분석이 필요
P3. Realistic 실제 사용자 인식과 유사하게 구성 (인기 영상 댓글 기반)
 

🎬 예시를 통한 설명

1. Implicit Reasoning (숨겨진 의미 추론)

예시: Metaphor Understanding

질문: What does the brown coat in the video symbolize?
정답: It symbolizes the father in a family, who protects his family in times of difficulty.
→ 겉보기에 그냥 코트지만, 아버지의 상징이라는 숨겨진 의미를 읽어야 정답 도출 가능

예시: Theme Understanding

질문: What social issue does this video imply?
정답: People face great pressure in buying homes, as housing prices increase while they are saving money.
→ 직접 언급되지 않지만 영상 전체에서 느껴지는 사회적 메시지를 유추

2. Explicit Reasoning (구체적 논리 추론)

예시: Sequential Reasoning

질문: Is the video played in reverse? Why?
정답: It is not played in reverse; you can tell from the man spraying away the letter 'P' from the wall.
→ 영상 전체를 보고 순서적 단서를 찾아야 함

예시: Counterintuitive Reasoning

질문: How does the man make the pen disappear?
→ 실제 마술 장면을 분석하고, 프레임 간 차이를 논리적으로 설명해야 함 (카메라 컷, 손의 위치 등)

🔍 어떤 방식으로 구성했는가?

✅ 비디오 수집

  • Youtube에서 인기 있고, 단순하지 않은 구조를 가진 영상만 수집
  • 창의성의도적 연출이 있는 영상만 포함
  • 애니메이션, 영화, 예술, TV, 철학 등 다양한 도메인 포함

✅ 문제 구성

  • 1257개 질문, 각 질문당 평균 10개의 보기
  • 정답 1개 + GPT-4o 기반 모델이 틀린 오답을 선택적으로 채택하여 혼란 유발 distractor로 사용
  • Implicit / Explicit Reasoning 기준으로 10개 주요 task 유형과 33개의 하위 유형으로 분류됨

📊 실험 결과 요약

  • 최고 성능 모델도 정답률 52.5% (o4-mini) 에 그침 → 인간 성능인 86%와 큰 차이
  • CoT (Chain-of-Thought) 사용해도 향상은 0.5% 수준 → 기존 텍스트 중심 CoT는 멀티모달 reasoning에 충분하지 않음
  • 대부분의 CoT가 텍스트 기반 reasoning에 치우침 → 질문 프레임 몇 개만 보고 나머지는 언어 기반 추론
  • 오히려 비질문 프레임에 대한 분석을 많이 한 모델일수록 성능이 높음 (o4-mini)

🔍 한계와 Error Analysis

  • 주요 오류 유형:
    1. Lack of Visual Reasoning (47%): 프레임 간 연관성 파악 실패
    2. Implicit Misinterpretation (26%): 상징, 은유, 감정 해석 실패
    3. Knowledge 부족, 추론 오류, 환각 (Hallucination)
  • 프레임 수 증가는 성능 향상에 도움 되지만, 일정 이후 성능 향상 둔화멀티프레임 추론 능력 한계 때문
  • 오디오 사용 시 성능 향상: 일부 모델에서 최대 +1.9% 향상 → 오디오도 reasoning에 도움을 줄 수 있음

📌 결론 및 의의

MMR-V는 단순 인식이 아니라 **"생각하는 모델"**을 평가하기 위한 최초의 체계적 벤치마크 중 하나임.

  • 단순히 "이게 무슨 장면이야?"에서 벗어나
  • "이 장면이 상징하는 건 뭘까?", "왜 이 일이 일어났지?", "뒤에 어떤 감정이 숨어있지?"와 같은 고차원적 질문을 요구

이는 향후 VLM (Vision Language Model)이 실제 인간처럼 영상을 이해하고 reasoning 하는 데 필수적인 능력임.

728x90