250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- BOJ
- N-Queen
- streamlit
- REST API
- n과 m
- 1101
- Retrieval
- 오블완
- 경사하강법
- 손실함수
- pyenv
- Python
- 개발환경
- 신경망 학습
- 밑바닥부터 시작하는 딥러닝
- 티스토리챌린지
- video retireval
- end to end
- 9020
- 백준
- 4948
- 15649
- 재귀
- 1002
- 파이싼
- 가상환경
- 백트래킹
- 파이썬
- 기계학습
- 그리디 알고리즘
Archives
- Today
- Total
파이톨치
MoReVQA 본문
728x90
논문 MoReVQA: Exploring Modular Reasoning Models for Video Question Answering는 비디오 질의응답(VideoQA)의 복잡한 문제를 다루기 위해 기존의 단일 단계(single-stage) 모듈러 접근 방식의 한계를 지적하고, 이를 극복하기 위해 다단계(modular, multi-stage) 방식의 MoReVQA 프레임워크를 제안합니다. 아래에 구조적으로 상세 설명드릴게요.
1. 왜 이렇게 접근했는가? (연구 동기)
📌 기존 방식의 한계
- Single-stage planning: 기존의 modular video QA 시스템은 언어만을 기반으로 한 단일 단계 플래닝(예: ViperGPT)을 사용함. 이 경우 전체 reasoning 프로그램을 질문(Q)만 보고 한 번에 생성해야 함.
- → 이 방식은 실제 비디오 내용과 무관하게 brittle (취약)한 프로그램 생성으로 이어지기 쉬움.
- End-to-end VLMs도 해석 불가능하며, 프레임 수 제한으로 장시간 비디오에서의 추론 어려움.
📌 연구자들의 가설
- 실제로는 단순히 모든 프레임을 캡셔닝해서 LLM에 넣는 방식(JCEF)이 ViperGPT보다 더 좋은 성능을 냄.
- 하지만 JCEF는 질문 특화된 reasoning을 하지 못하고, 프레임 전체를 처리하므로 비효율적이며 해석력이 떨어짐.
✅ 따라서
→ MoReVQA는 비디오 QA 문제를 세 가지 자연스러운 서브태스크로 나눠서 점진적으로 접근함으로써 추론의 유연성, 효율성, 해석 가능성을 확보함.
2. 어떻게 접근했는가? (방법론)
MoReVQA는 세 단계로 구성된 Modular Reasoning Framework입니다. 각각은 LLM 기반이며, tool API를 활용합니다.
🔹 Stage 1: Event Parsing
- 입력된 질문을 이벤트 단위로 분석
- 예: “왜 고양이가 등을 대고 누워 있는가?” → "고양이", "등을 대고 누워 있음", "이유" 등.
- 시간적 단서(before, during, after), 질문 타입(what, why, where), 필요한 tool 정보(OCR 필요 여부 등)를 추출.
- → 결과는 API 명령어 리스트(z₁) 로 변환되어 외부 메모리에 저장됨.
🔹 Stage 2: Grounding
- Event Parsing 결과를 바탕으로 실제 비디오에서 해당 이벤트가 나타나는 프레임을 선택.
- 예: “고양이가 등을 대고 누워 있는” 프레임만 뽑아서 검증 API 실행 → 이벤트에 대한 시각적 grounding 확보.
- → API 호출 결과(z₂)는 grounding된 시공간 정보를 메모리에 저장.
🔹 Stage 3: Reasoning
- grounding된 프레임 기반으로 서브 질문 생성 및 추론 수행.
- 예: "고양이의 상태는?", "고양이는 왜 등을 대고 누웠는가?", "주변에는 무엇이 있는가?"
- → reasoning 결과(z₃)는 메모리에서 통합되고, LLM이 최종 정답 A를 생성.
3. 예시로 보는 작동 방식
예시 질문
“왜 고양이는 등을 대고 누워 있었는가?”
단계동작예시
Event Parsing | "등을 대고 누워 있음", "이유", "고양이" 추출 | → OCR 필요 없음, temporal hint = "near end" |
Grounding | 해당 이벤트가 발생한 프레임 (e.g., 42~48) 찾음 | → "고양이가 사람에게 쓰다듬어지고 있음" |
Reasoning | "고양이는 어떤 상태인가?", "왜 눕는가?" 등 질문 생성 후 추론 | → 정답: "playing" |
비교
- JCEF: 모든 프레임을 캡션 후 LLM으로 직접 추론 → “tired”라고 오답
- ViperGPT+: 프로그램 생성이 잘못된 조건(if)으로 잘못된 프레임 분석 → 오답
- MoReVQA: grounding을 통해 정확한 프레임만 보고 reasoning → 정답
4. 어떤 결과를 얻었는가? (실험 결과)
🎯 성능 비교 (Accuracy %)
Dataset | ViperGPT+ | JCEF | MoReVQA |
NExT-QA | 64.0 | 66.7 | 69.2 |
iVQA | 46.6 | 56.9 | 60.9 |
EgoSchema | 49.3 | 49.9 | 51.7 |
ActivityNet-QA | 37.1 | 43.3 | 45.3 |
- 모든 데이터셋에서 MoReVQA가 가장 높은 성능
- 특히 훈련 없이 (training-free) 수행함에도 불구하고 Fine-tuned SOTA와 유사하거나 초과
5. 한계점은?
🔻 한계 및 향후 과제
- 모든 단계가 LLM prompting에 기반하기 때문에, 여전히 LLM의 제약(환각, 응답 일관성 등) 존재.
- 각 단계마다 프롬프트 설계와 API 선택이 필요하며, 복잡한 설정 관리가 요구됨.
- 일부 질문의 경우 여전히 grounding 실패나 모호한 reasoning이 발생 가능.
- 비디오의 오디오 정보는 활용되지 않음, 향후 확장 포인트.
✅ 요약
항목내용
접근 이유 | 단일 단계 모델의 brittleness, 해석 불가능성, 프레임 과처리 문제 |
접근 방법 | 3단계(LM 기반): Event Parsing → Grounding → Reasoning |
대표 예시 | 고양이 질문 → 정확한 grounding → 관련 프레임 reasoning → 정답 도출 |
성과 | 모든 VideoQA 벤치마크에서 zero/few-shot 기준 SOTA 성능 |
한계 | LLM 제약, 프롬프트 설계 필요, 오디오 미사용 |
728x90
'논문' 카테고리의 다른 글
Object-Shot Enhanced Grounding Network for Egocentric Video (OSGNet) (0) | 2025.05.16 |
---|---|
RAVU: Retrieval Augmented Video Understandingwith Compositional Reasoning over Graph (0) | 2025.05.16 |
UniVTG: Towards Unified Video-Language Temporal Grounding (1) | 2025.05.13 |
FLAM: Frame-Wise Language-Audio Modeling (0) | 2025.05.09 |
T*: Re-thinking Temporal Search for Long-Form Video Understanding (0) | 2025.05.07 |