파이톨치

YTCommentQA: Video Question Answerability in Instructional Videos 본문

논문

YTCommentQA: Video Question Answerability in Instructional Videos

파이톨치 2025. 6. 5. 15:02
728x90

🧠 왜 이런 접근을 했는가? (Motivation)

기존 Video QA(Task) 대부분은 비디오 안에 답이 있다고 가정하고 질문을 만들고, 답도 그 안에서 찾도록 되어 있음.
하지만 실제 유튜브 instructional 영상의 댓글을 보면, 사람들은 비디오로는 답이 안 되는 질문도 종종 함. 예:

❓ “Where did you know that is 400nm?”
→ 비디오에 해당 수치가 언급되지 않으면 답변할 수 없음. 이런 질문은 "unanswerable"임.

이런 현실적인 상황에서는 단순히 정답을 생성하는 것보다 먼저 이 질문이 비디오에서 답할 수 있는지 판단하는 게 중요함.
즉, "answerability" 판단이 선행돼야 함.

🔍 어떻게 접근했는가? (Approach Overview)

  1. 현실 질문 수집:
    유튜브 instructional 영상 댓글에서 실제 사람들이 남긴 질문 수집.
    → 단순히 “What is he doing?” 같은 형식적 질문이 아니라, 실제 상황 맥락에 기반한 질문.
  2. Timestamp 기반 필터링:
    답글에 특정 타임스탬프가 있는 질문만 선택.
    → “Check [2:34], that’s where he mentions the torque value” 같은 식의 대화가 힌트가 되기 때문.
  3. Answerability 라벨링:
    질문이 다음 중 어디에 기반해서 답변 가능한지 태깅:
    • (0) Unanswerable
    • (1) Visual only
    • (2) Script (자막) only
    • (3) 둘 다 필요
  4. 멀티모달 추론을 요구하는 데이터셋 구축
    단일 modality로는 해결이 어려운 질문을 일부러 포함함.

🧪 어떤 실험을 했는가? (Method & Tasks)

두 가지 Task를 설계함:

1️⃣ Segment Answerability Classification

  • 문제: 주어진 비디오 세그먼트에서 이 질문이 답변 가능한가?
  • 입력: 질문 + 해당 세그먼트의 시각 정보(이미지 캡션 + OCR) + 스크립트
  • 출력: Answerable / Unanswerable

🧾 예시:
질문: “what temperature did you cook it at?”
→ 스크립트에 “200 degrees Celsius”가 명시됨 → Answerable (Script 기반)

📊 모델 성능 (F1 score):

  • GPT-4 (zero-shot): 33.02
  • LLaMA2 13B (fine-tuned): 55.49
  • SeViLA (multimodal): 46.55
    → GPT-4는 특히 "Visual answerable"인 경우에 실패함 (53%는 visual 오판)

2️⃣ Video Answerability Classification

  • 문제: 전체 비디오 보고 이 질문이 어떤 modality를 필요로 하는가?
  • 5가지 클래스:
    • 0: Unanswerable
    • 1: Visual only
    • 2: Script only
    • 3: Visual도 되고 Script도 됨
    • 4: 둘 다 필요함 (Combined)

🧾 예시:
질문: “Can you tell me what bit did you use in this particular project?”
→ Visual: 어떤 drill bit인지 보여줌
→ Script: 이름은 언급 안 함
→ 정답: 4 (Combined required)

📊 모델 성능 (Accuracy):

  • GPT-4 (zero-shot): 27.03
  • LLaMA2 13B (fine-tuned): 37.70
  • SeViLA: 35.27
    → 전체 영상 맥락을 반영해야 하므로 성능이 더 낮음
    → 특히 Combined 클래스(4)는 85%가 오답으로 분류됨

🎯 이 방법의 장점은?

  • 기존 QA 모델이 비디오 내에서 무조건 답이 있다고 가정한 것과 달리, 현실적인 사용자의 질문 흐름을 반영함.
  • 멀티모달 reasoning이 필요한 질문의 비율을 분석하고, 시각/언어 정보의 결합 필요성을 검증할 수 있음.
  • 실제 사용자 질문 기반이므로 자연스럽고 다양한 표현 존재 (“hi”, “mam”, 오타 등도 있음)

📉 한계점은?

  1. 타임스탬프 근처만 분석:
    → 전체 비디오 맥락을 놓칠 수 있음
    → 더 정교한 long-context reasoning이 필요함
  2. 요약 기반 입력:
    → GPT 계열이나 LLaMA는 한 번에 전체 영상 다 못 봄 → segment summary로 처리
    → 중간 정보 손실 가능성 있음
  3. Combined 클래스 처리 미흡:
    → 현재 대부분의 모델은 modality 간 상호작용을 잘 못함

🧪 향후 확장 아이디어

  • 🔍 Query-aware modality selector: 질문에 따라 visual/script/combined 추론 모듈을 다르게 사용
  • 🌍 External Knowledge 연동: Answerability가 낮은 질문에 대해 외부 지식 검색 연동
  • 🎞️ Long-context 모델(ex. Gemini, Claude 3) 활용하여 전체 문맥 기반 판단

📌 요약

항목내용
문제 정의 비디오 내 질문이 답변 가능한지 자동으로 판단
접근 방식 유튜브 댓글 기반 실제 질문 수집 → 멀티모달 라벨링
주요 실험 Segment-Level / Video-Level Answerability Classification
결과 GPT-4는 시각 정보 활용에 취약, LLaMA2 fine-tuning이 가장 우수
의의 QA 모델의 hallucination 방지 및 사용자 현실 반영
한계 전체 문맥 부족, combined modality reasoning 미흡
728x90