250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- Python
- 파이싼
- 손실함수
- 티스토리챌린지
- 파이썬
- video retireval
- streamlit
- 1002
- 재귀
- 오블완
- 15649
- Retrieval
- 백준
- 개발환경
- 9020
- pyenv
- BOJ
- 경사하강법
- n과 m
- 밑바닥부터 시작하는 딥러닝
- end to end
- 백트래킹
- 4948
- 기계학습
- 그리디 알고리즘
- 신경망 학습
- 1101
- 가상환경
- N-Queen
- REST API
Archives
- Today
- Total
파이톨치
YTCommentQA: Video Question Answerability in Instructional Videos 본문
728x90
🧠 왜 이런 접근을 했는가? (Motivation)
기존 Video QA(Task) 대부분은 비디오 안에 답이 있다고 가정하고 질문을 만들고, 답도 그 안에서 찾도록 되어 있음.
하지만 실제 유튜브 instructional 영상의 댓글을 보면, 사람들은 비디오로는 답이 안 되는 질문도 종종 함. 예:
❓ “Where did you know that is 400nm?”
→ 비디오에 해당 수치가 언급되지 않으면 답변할 수 없음. 이런 질문은 "unanswerable"임.
이런 현실적인 상황에서는 단순히 정답을 생성하는 것보다 먼저 이 질문이 비디오에서 답할 수 있는지 판단하는 게 중요함.
즉, "answerability" 판단이 선행돼야 함.
🔍 어떻게 접근했는가? (Approach Overview)
- 현실 질문 수집:
유튜브 instructional 영상 댓글에서 실제 사람들이 남긴 질문 수집.
→ 단순히 “What is he doing?” 같은 형식적 질문이 아니라, 실제 상황 맥락에 기반한 질문. - Timestamp 기반 필터링:
답글에 특정 타임스탬프가 있는 질문만 선택.
→ “Check [2:34], that’s where he mentions the torque value” 같은 식의 대화가 힌트가 되기 때문. - Answerability 라벨링:
질문이 다음 중 어디에 기반해서 답변 가능한지 태깅:- (0) Unanswerable
- (1) Visual only
- (2) Script (자막) only
- (3) 둘 다 필요
- 멀티모달 추론을 요구하는 데이터셋 구축
단일 modality로는 해결이 어려운 질문을 일부러 포함함.
🧪 어떤 실험을 했는가? (Method & Tasks)
두 가지 Task를 설계함:
1️⃣ Segment Answerability Classification
- 문제: 주어진 비디오 세그먼트에서 이 질문이 답변 가능한가?
- 입력: 질문 + 해당 세그먼트의 시각 정보(이미지 캡션 + OCR) + 스크립트
- 출력: Answerable / Unanswerable
🧾 예시:
질문: “what temperature did you cook it at?”
→ 스크립트에 “200 degrees Celsius”가 명시됨 → Answerable (Script 기반)
📊 모델 성능 (F1 score):
- GPT-4 (zero-shot): 33.02
- LLaMA2 13B (fine-tuned): 55.49
- SeViLA (multimodal): 46.55
→ GPT-4는 특히 "Visual answerable"인 경우에 실패함 (53%는 visual 오판)
2️⃣ Video Answerability Classification
- 문제: 전체 비디오 보고 이 질문이 어떤 modality를 필요로 하는가?
- 5가지 클래스:
- 0: Unanswerable
- 1: Visual only
- 2: Script only
- 3: Visual도 되고 Script도 됨
- 4: 둘 다 필요함 (Combined)
🧾 예시:
질문: “Can you tell me what bit did you use in this particular project?”
→ Visual: 어떤 drill bit인지 보여줌
→ Script: 이름은 언급 안 함
→ 정답: 4 (Combined required)
📊 모델 성능 (Accuracy):
- GPT-4 (zero-shot): 27.03
- LLaMA2 13B (fine-tuned): 37.70
- SeViLA: 35.27
→ 전체 영상 맥락을 반영해야 하므로 성능이 더 낮음
→ 특히 Combined 클래스(4)는 85%가 오답으로 분류됨
🎯 이 방법의 장점은?
- 기존 QA 모델이 비디오 내에서 무조건 답이 있다고 가정한 것과 달리, 현실적인 사용자의 질문 흐름을 반영함.
- 멀티모달 reasoning이 필요한 질문의 비율을 분석하고, 시각/언어 정보의 결합 필요성을 검증할 수 있음.
- 실제 사용자 질문 기반이므로 자연스럽고 다양한 표현 존재 (“hi”, “mam”, 오타 등도 있음)
📉 한계점은?
- 타임스탬프 근처만 분석:
→ 전체 비디오 맥락을 놓칠 수 있음
→ 더 정교한 long-context reasoning이 필요함 - 요약 기반 입력:
→ GPT 계열이나 LLaMA는 한 번에 전체 영상 다 못 봄 → segment summary로 처리
→ 중간 정보 손실 가능성 있음 - Combined 클래스 처리 미흡:
→ 현재 대부분의 모델은 modality 간 상호작용을 잘 못함
🧪 향후 확장 아이디어
- 🔍 Query-aware modality selector: 질문에 따라 visual/script/combined 추론 모듈을 다르게 사용
- 🌍 External Knowledge 연동: Answerability가 낮은 질문에 대해 외부 지식 검색 연동
- 🎞️ Long-context 모델(ex. Gemini, Claude 3) 활용하여 전체 문맥 기반 판단
📌 요약
항목내용
문제 정의 | 비디오 내 질문이 답변 가능한지 자동으로 판단 |
접근 방식 | 유튜브 댓글 기반 실제 질문 수집 → 멀티모달 라벨링 |
주요 실험 | Segment-Level / Video-Level Answerability Classification |
결과 | GPT-4는 시각 정보 활용에 취약, LLaMA2 fine-tuning이 가장 우수 |
의의 | QA 모델의 hallucination 방지 및 사용자 현실 반영 |
한계 | 전체 문맥 부족, combined modality reasoning 미흡 |
728x90
'논문' 카테고리의 다른 글
QA-TIGER: Question-Aware Gaussian Experts for Audio-Visual Question Answering (0) | 2025.06.05 |
---|---|
MMR-V: What’s Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos (2) | 2025.06.05 |
VIDEOREASONBENCH: Can MLLMs PerformVision-Centric Complex Video Reasoning? (2) | 2025.06.01 |
Watch and Listen: UnderstandingAudio-Visual-Speech Moments with Multimodal LLM (0) | 2025.05.26 |
ViQAgent (0) | 2025.05.26 |