파이톨치

MoReVQA 본문

논문

MoReVQA

파이톨치 2025. 5. 15. 16:14
728x90

논문 MoReVQA: Exploring Modular Reasoning Models for Video Question Answering는 비디오 질의응답(VideoQA)의 복잡한 문제를 다루기 위해 기존의 단일 단계(single-stage) 모듈러 접근 방식의 한계를 지적하고, 이를 극복하기 위해 다단계(modular, multi-stage) 방식의 MoReVQA 프레임워크를 제안합니다. 아래에 구조적으로 상세 설명드릴게요.

1. 왜 이렇게 접근했는가? (연구 동기)

📌 기존 방식의 한계

  • Single-stage planning: 기존의 modular video QA 시스템은 언어만을 기반으로 한 단일 단계 플래닝(예: ViperGPT)을 사용함. 이 경우 전체 reasoning 프로그램을 질문(Q)만 보고 한 번에 생성해야 함.
  • → 이 방식은 실제 비디오 내용과 무관하게 brittle (취약)한 프로그램 생성으로 이어지기 쉬움.
  • End-to-end VLMs도 해석 불가능하며, 프레임 수 제한으로 장시간 비디오에서의 추론 어려움.

📌 연구자들의 가설

  • 실제로는 단순히 모든 프레임을 캡셔닝해서 LLM에 넣는 방식(JCEF)이 ViperGPT보다 더 좋은 성능을 냄.
  • 하지만 JCEF는 질문 특화된 reasoning을 하지 못하고, 프레임 전체를 처리하므로 비효율적이며 해석력이 떨어짐.

✅ 따라서

MoReVQA는 비디오 QA 문제를 세 가지 자연스러운 서브태스크로 나눠서 점진적으로 접근함으로써 추론의 유연성, 효율성, 해석 가능성을 확보함.

2. 어떻게 접근했는가? (방법론)

MoReVQA는 세 단계로 구성된 Modular Reasoning Framework입니다. 각각은 LLM 기반이며, tool API를 활용합니다.

🔹 Stage 1: Event Parsing

  • 입력된 질문을 이벤트 단위로 분석
    • 예: “왜 고양이가 등을 대고 누워 있는가?” → "고양이", "등을 대고 누워 있음", "이유" 등.
  • 시간적 단서(before, during, after), 질문 타입(what, why, where), 필요한 tool 정보(OCR 필요 여부 등)를 추출.
  • → 결과는 API 명령어 리스트(z₁) 로 변환되어 외부 메모리에 저장됨.

🔹 Stage 2: Grounding

  • Event Parsing 결과를 바탕으로 실제 비디오에서 해당 이벤트가 나타나는 프레임을 선택.
  • 예: “고양이가 등을 대고 누워 있는” 프레임만 뽑아서 검증 API 실행 → 이벤트에 대한 시각적 grounding 확보.
  • → API 호출 결과(z₂)는 grounding된 시공간 정보를 메모리에 저장.

🔹 Stage 3: Reasoning

  • grounding된 프레임 기반으로 서브 질문 생성 및 추론 수행.
  • 예: "고양이의 상태는?", "고양이는 왜 등을 대고 누웠는가?", "주변에는 무엇이 있는가?"
  • → reasoning 결과(z₃)는 메모리에서 통합되고, LLM이 최종 정답 A를 생성.

3. 예시로 보는 작동 방식

예시 질문

“왜 고양이는 등을 대고 누워 있었는가?”

단계동작예시
Event Parsing "등을 대고 누워 있음", "이유", "고양이" 추출 → OCR 필요 없음, temporal hint = "near end"
Grounding 해당 이벤트가 발생한 프레임 (e.g., 42~48) 찾음 → "고양이가 사람에게 쓰다듬어지고 있음"
Reasoning "고양이는 어떤 상태인가?", "왜 눕는가?" 등 질문 생성 후 추론 → 정답: "playing"
 

비교

  • JCEF: 모든 프레임을 캡션 후 LLM으로 직접 추론 → “tired”라고 오답
  • ViperGPT+: 프로그램 생성이 잘못된 조건(if)으로 잘못된 프레임 분석 → 오답
  • MoReVQA: grounding을 통해 정확한 프레임만 보고 reasoning → 정답

4. 어떤 결과를 얻었는가? (실험 결과)

🎯 성능 비교 (Accuracy %)

 

Dataset ViperGPT+ JCEF MoReVQA
NExT-QA 64.0 66.7 69.2
iVQA 46.6 56.9 60.9
EgoSchema 49.3 49.9 51.7
ActivityNet-QA 37.1 43.3 45.3
 
  • 모든 데이터셋에서 MoReVQA가 가장 높은 성능
  • 특히 훈련 없이 (training-free) 수행함에도 불구하고 Fine-tuned SOTA와 유사하거나 초과

5. 한계점은?

🔻 한계 및 향후 과제

  • 모든 단계가 LLM prompting에 기반하기 때문에, 여전히 LLM의 제약(환각, 응답 일관성 등) 존재.
  • 각 단계마다 프롬프트 설계와 API 선택이 필요하며, 복잡한 설정 관리가 요구됨.
  • 일부 질문의 경우 여전히 grounding 실패모호한 reasoning이 발생 가능.
  • 비디오의 오디오 정보는 활용되지 않음, 향후 확장 포인트.

✅ 요약

항목내용
접근 이유 단일 단계 모델의 brittleness, 해석 불가능성, 프레임 과처리 문제
접근 방법 3단계(LM 기반): Event Parsing → Grounding → Reasoning
대표 예시 고양이 질문 → 정확한 grounding → 관련 프레임 reasoning → 정답 도출
성과 모든 VideoQA 벤치마크에서 zero/few-shot 기준 SOTA 성능
한계 LLM 제약, 프롬프트 설계 필요, 오디오 미사용

 

728x90