YTCommentQA: Video Question Answerability in Instructional Videos

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

파이톨치

YTCommentQA: Video Question Answerability in Instructional Videos 본문

논문

YTCommentQA: Video Question Answerability in Instructional Videos

파이톨치 2025. 6. 5. 15:02

728x90

🧠 왜 이런 접근을 했는가? (Motivation)

기존 Video QA(Task) 대부분은 비디오 안에 답이 있다고 가정하고 질문을 만들고, 답도 그 안에서 찾도록 되어 있음.
하지만 실제 유튜브 instructional 영상의 댓글을 보면, 사람들은 비디오로는 답이 안 되는 질문도 종종 함. 예:

❓ “Where did you know that is 400nm?”
→ 비디오에 해당 수치가 언급되지 않으면 답변할 수 없음. 이런 질문은 "unanswerable"임.

이런 현실적인 상황에서는 단순히 정답을 생성하는 것보다 먼저 이 질문이 비디오에서 답할 수 있는지 판단하는 게 중요함.
즉, "answerability" 판단이 선행돼야 함.

🔍 어떻게 접근했는가? (Approach Overview)

현실 질문 수집:
유튜브 instructional 영상 댓글에서 실제 사람들이 남긴 질문 수집.
→ 단순히 “What is he doing?” 같은 형식적 질문이 아니라, 실제 상황 맥락에 기반한 질문.
Timestamp 기반 필터링:
답글에 특정 타임스탬프가 있는 질문만 선택.
→ “Check [2:34], that’s where he mentions the torque value” 같은 식의 대화가 힌트가 되기 때문.
Answerability 라벨링:
질문이 다음 중 어디에 기반해서 답변 가능한지 태깅:
- (0) Unanswerable
- (1) Visual only
- (2) Script (자막) only
- (3) 둘 다 필요
멀티모달 추론을 요구하는 데이터셋 구축
단일 modality로는 해결이 어려운 질문을 일부러 포함함.

🧪 어떤 실험을 했는가? (Method & Tasks)

두 가지 Task를 설계함:

1️⃣ Segment Answerability Classification

문제: 주어진 비디오 세그먼트에서 이 질문이 답변 가능한가?
입력: 질문 + 해당 세그먼트의 시각 정보(이미지 캡션 + OCR) + 스크립트
출력: Answerable / Unanswerable

🧾 예시:
질문: “what temperature did you cook it at?”
→ 스크립트에 “200 degrees Celsius”가 명시됨 → Answerable (Script 기반)

📊 모델 성능 (F1 score):

GPT-4 (zero-shot): 33.02
LLaMA2 13B (fine-tuned): 55.49
SeViLA (multimodal): 46.55
→ GPT-4는 특히 "Visual answerable"인 경우에 실패함 (53%는 visual 오판)

2️⃣ Video Answerability Classification

문제: 전체 비디오 보고 이 질문이 어떤 modality를 필요로 하는가?
5가지 클래스:
- 0: Unanswerable
- 1: Visual only
- 2: Script only
- 3: Visual도 되고 Script도 됨
- 4: 둘 다 필요함 (Combined)

🧾 예시:
질문: “Can you tell me what bit did you use in this particular project?”
→ Visual: 어떤 drill bit인지 보여줌
→ Script: 이름은 언급 안 함
→ 정답: 4 (Combined required)

📊 모델 성능 (Accuracy):

GPT-4 (zero-shot): 27.03
LLaMA2 13B (fine-tuned): 37.70
SeViLA: 35.27
→ 전체 영상 맥락을 반영해야 하므로 성능이 더 낮음
→ 특히 Combined 클래스(4)는 85%가 오답으로 분류됨

🎯 이 방법의 장점은?

기존 QA 모델이 비디오 내에서 무조건 답이 있다고 가정한 것과 달리, 현실적인 사용자의 질문 흐름을 반영함.
멀티모달 reasoning이 필요한 질문의 비율을 분석하고, 시각/언어 정보의 결합 필요성을 검증할 수 있음.
실제 사용자 질문 기반이므로 자연스럽고 다양한 표현 존재 (“hi”, “mam”, 오타 등도 있음)

📉 한계점은?

타임스탬프 근처만 분석:
→ 전체 비디오 맥락을 놓칠 수 있음
→ 더 정교한 long-context reasoning이 필요함
요약 기반 입력:
→ GPT 계열이나 LLaMA는 한 번에 전체 영상 다 못 봄 → segment summary로 처리
→ 중간 정보 손실 가능성 있음
Combined 클래스 처리 미흡:
→ 현재 대부분의 모델은 modality 간 상호작용을 잘 못함

🧪 향후 확장 아이디어

🔍 Query-aware modality selector: 질문에 따라 visual/script/combined 추론 모듈을 다르게 사용
🌍 External Knowledge 연동: Answerability가 낮은 질문에 대해 외부 지식 검색 연동
🎞️ Long-context 모델(ex. Gemini, Claude 3) 활용하여 전체 문맥 기반 판단

📌 요약

항목내용

문제 정의	비디오 내 질문이 답변 가능한지 자동으로 판단
접근 방식	유튜브 댓글 기반 실제 질문 수집 → 멀티모달 라벨링
주요 실험	Segment-Level / Video-Level Answerability Classification
결과	GPT-4는 시각 정보 활용에 취약, LLaMA2 fine-tuning이 가장 우수
의의	QA 모델의 hallucination 방지 및 사용자 현실 반영
한계	전체 문맥 부족, combined modality reasoning 미흡

728x90

저작자표시 (새창열림)

'논문' 카테고리의 다른 글

QA-TIGER: Question-Aware Gaussian Experts for Audio-Visual Question Answering (0)	2025.06.05
MMR-V: What’s Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos (2)	2025.06.05
VIDEOREASONBENCH: Can MLLMs PerformVision-Centric Complex Video Reasoning? (2)	2025.06.01
Watch and Listen: UnderstandingAudio-Visual-Speech Moments with Multimodal LLM (0)	2025.05.26
ViQAgent (0)	2025.05.26

'논문' Related Articles

파이톨치

YTCommentQA: Video Question Answerability in Instructional Videos 본문

YTCommentQA: Video Question Answerability in Instructional Videos

🧠 왜 이런 접근을 했는가? (Motivation)

🔍 어떻게 접근했는가? (Approach Overview)

🧪 어떤 실험을 했는가? (Method & Tasks)

1️⃣ Segment Answerability Classification

2️⃣ Video Answerability Classification

🎯 이 방법의 장점은?

📉 한계점은?

🧪 향후 확장 아이디어

📌 요약

'논문' 카테고리의 다른 글

티스토리툴바