MoReVQA

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

파이톨치

MoReVQA 본문

논문

MoReVQA

파이톨치 2025. 5. 15. 16:14

728x90

논문 MoReVQA: Exploring Modular Reasoning Models for Video Question Answering는 비디오 질의응답(VideoQA)의 복잡한 문제를 다루기 위해 기존의 단일 단계(single-stage) 모듈러 접근 방식의 한계를 지적하고, 이를 극복하기 위해 다단계(modular, multi-stage) 방식의 MoReVQA 프레임워크를 제안합니다. 아래에 구조적으로 상세 설명드릴게요.

1. 왜 이렇게 접근했는가? (연구 동기)

📌 기존 방식의 한계

Single-stage planning: 기존의 modular video QA 시스템은 언어만을 기반으로 한 단일 단계 플래닝(예: ViperGPT)을 사용함. 이 경우 전체 reasoning 프로그램을 질문(Q)만 보고 한 번에 생성해야 함.
→ 이 방식은 실제 비디오 내용과 무관하게 brittle (취약)한 프로그램 생성으로 이어지기 쉬움.
End-to-end VLMs도 해석 불가능하며, 프레임 수 제한으로 장시간 비디오에서의 추론 어려움.

📌 연구자들의 가설

실제로는 단순히 모든 프레임을 캡셔닝해서 LLM에 넣는 방식(JCEF)이 ViperGPT보다 더 좋은 성능을 냄.
하지만 JCEF는 질문 특화된 reasoning을 하지 못하고, 프레임 전체를 처리하므로 비효율적이며 해석력이 떨어짐.

✅ 따라서

→ MoReVQA는 비디오 QA 문제를 세 가지 자연스러운 서브태스크로 나눠서 점진적으로 접근함으로써 추론의 유연성, 효율성, 해석 가능성을 확보함.

2. 어떻게 접근했는가? (방법론)

MoReVQA는 세 단계로 구성된 Modular Reasoning Framework입니다. 각각은 LLM 기반이며, tool API를 활용합니다.

🔹 Stage 1: Event Parsing

입력된 질문을 이벤트 단위로 분석
- 예: “왜 고양이가 등을 대고 누워 있는가?” → "고양이", "등을 대고 누워 있음", "이유" 등.
시간적 단서(before, during, after), 질문 타입(what, why, where), 필요한 tool 정보(OCR 필요 여부 등)를 추출.
→ 결과는 API 명령어 리스트(z₁) 로 변환되어 외부 메모리에 저장됨.

🔹 Stage 2: Grounding

Event Parsing 결과를 바탕으로 실제 비디오에서 해당 이벤트가 나타나는 프레임을 선택.
예: “고양이가 등을 대고 누워 있는” 프레임만 뽑아서 검증 API 실행 → 이벤트에 대한 시각적 grounding 확보.
→ API 호출 결과(z₂)는 grounding된 시공간 정보를 메모리에 저장.

🔹 Stage 3: Reasoning

grounding된 프레임 기반으로 서브 질문 생성 및 추론 수행.
예: "고양이의 상태는?", "고양이는 왜 등을 대고 누웠는가?", "주변에는 무엇이 있는가?"
→ reasoning 결과(z₃)는 메모리에서 통합되고, LLM이 최종 정답 A를 생성.

3. 예시로 보는 작동 방식

예시 질문

“왜 고양이는 등을 대고 누워 있었는가?”

단계동작예시

Event Parsing	"등을 대고 누워 있음", "이유", "고양이" 추출	→ OCR 필요 없음, temporal hint = "near end"
Grounding	해당 이벤트가 발생한 프레임 (e.g., 42~48) 찾음	→ "고양이가 사람에게 쓰다듬어지고 있음"
Reasoning	"고양이는 어떤 상태인가?", "왜 눕는가?" 등 질문 생성 후 추론	→ 정답: "playing"

비교

JCEF: 모든 프레임을 캡션 후 LLM으로 직접 추론 → “tired”라고 오답
ViperGPT+: 프로그램 생성이 잘못된 조건(if)으로 잘못된 프레임 분석 → 오답
MoReVQA: grounding을 통해 정확한 프레임만 보고 reasoning → 정답

4. 어떤 결과를 얻었는가? (실험 결과)

🎯 성능 비교 (Accuracy %)

Dataset	ViperGPT+	JCEF	MoReVQA
NExT-QA	64.0	66.7	69.2
iVQA	46.6	56.9	60.9
EgoSchema	49.3	49.9	51.7
ActivityNet-QA	37.1	43.3	45.3

모든 데이터셋에서 MoReVQA가 가장 높은 성능
특히 훈련 없이 (training-free) 수행함에도 불구하고 Fine-tuned SOTA와 유사하거나 초과

5. 한계점은?

🔻 한계 및 향후 과제

모든 단계가 LLM prompting에 기반하기 때문에, 여전히 LLM의 제약(환각, 응답 일관성 등) 존재.
각 단계마다 프롬프트 설계와 API 선택이 필요하며, 복잡한 설정 관리가 요구됨.
일부 질문의 경우 여전히 grounding 실패나 모호한 reasoning이 발생 가능.
비디오의 오디오 정보는 활용되지 않음, 향후 확장 포인트.

✅ 요약

항목내용

접근 이유	단일 단계 모델의 brittleness, 해석 불가능성, 프레임 과처리 문제
접근 방법	3단계(LM 기반): Event Parsing → Grounding → Reasoning
대표 예시	고양이 질문 → 정확한 grounding → 관련 프레임 reasoning → 정답 도출
성과	모든 VideoQA 벤치마크에서 zero/few-shot 기준 SOTA 성능
한계	LLM 제약, 프롬프트 설계 필요, 오디오 미사용

728x90

저작자표시 (새창열림)

'논문' 카테고리의 다른 글

Object-Shot Enhanced Grounding Network for Egocentric Video (OSGNet) (0)	2025.05.16
RAVU: Retrieval Augmented Video Understandingwith Compositional Reasoning over Graph (0)	2025.05.16
UniVTG: Towards Unified Video-Language Temporal Grounding (1)	2025.05.13
FLAM: Frame-Wise Language-Audio Modeling (0)	2025.05.09
T*: Re-thinking Temporal Search for Long-Form Video Understanding (0)	2025.05.07

'논문' Related Articles

파이톨치

MoReVQA 본문

MoReVQA

1. 왜 이렇게 접근했는가? (연구 동기)

📌 기존 방식의 한계

📌 연구자들의 가설

✅ 따라서

2. 어떻게 접근했는가? (방법론)

🔹 Stage 1: Event Parsing

🔹 Stage 2: Grounding

🔹 Stage 3: Reasoning

3. 예시로 보는 작동 방식

예시 질문

비교

4. 어떤 결과를 얻었는가? (실험 결과)

🎯 성능 비교 (Accuracy %)

5. 한계점은?

🔻 한계 및 향후 과제

✅ 요약

'논문' 카테고리의 다른 글

티스토리툴바