파이톨치

CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding 본문

카테고리 없음

CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding

파이톨치 2025. 6. 24. 13:06
728x90

(참고: 이 논문은 「CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding」입니다.)


1️⃣ 왜 이렇게 접근했는가? (문제의식)

기존 문제점:

  • 기존 VideoQA 벤치마크 대부분 짧은 영상 (수 초 ~ 수 분) 중심 → 장시간 영상 (10분 이상)은 상대적으로 평가 부족.
  • 기존 Long-Video 벤치마크도 있지만 대부분 Multiple Choice Question (MCQ) 중심 → 모델이 옵션 제거 (elimination) 방식으로 풀어버림.
    • 예: "이탈리아에서 노래 부른 뒤 뭘 했는가?"
      • 선택지 중 "루브르 박물관으로 갔다" → 상식적으로 틀렸으니 제거 → 정답 추론할 필요 없이 걸러짐.
    • 즉, 진짜로 영상을 본 건지 알 수 없음 → 신뢰성 낮음.

핵심 문제의식

  • "정답 맞히는 것" 자체보다, 정답에 이르는 과정이 중요한데 이를 기존 벤치마크는 평가하지 못한다.
  • 영상 속에서 정답의 단서(clue) 를 제대로 찾아냈는지 검증하고 싶다.

2️⃣ 어떻게 접근했는가? (핵심 아이디어)

핵심 접근법:

  • "Clue-grounded QA":
    정답을 맞힐 뿐만 아니라, 그 정답의 근거가 된 영상의 시간 구간(interval) 도 함께 예측하도록 요구.
  • 평가를 2가지로 나눔:
    • White-box 평가 (명시적 근거 요구)
      → 모델이 "00:03:15 ~ 00:03:22 구간이 근거입니다"라고 직접 출력
    • Black-box 평가 (암묵적 근거 확인)
      → 전체 영상을 줬을 때 MCQ 정확도가 단서 구간만 줬을 때보다 높아야 함 (정말 clue 찾아봤는지 검증)

예시 (논문 속 실제 예시 일부):

  • Q1: 암스테르담 시장에서 주인공이 만진 사진틀 개수는?
    • 단서가 되는 부분: 시장을 걷는 장면 중 사진틀을 만지는 부분 (해당 timestamp 제공됨)
  • Q3: 루브르에서 사람들이 둘러싼 세계적 명화는?
    • 단서가 되는 부분: 루브르 장면 중 관람객들이 붐비는 특정 그림 촬영 장면

3️⃣ 어떤 방법으로 데이터셋을 만들었나?

전체 데이터 구성

  • 1,219개의 10분 이상 긴 영상 (총 20~80분 길이 분포)
  • 14개 대분류, 171개 중분류, 638개 세분류 → 다양한 영상 콘텐츠 확보
  • 12,129개의 QAC triplet (Question-Answer-Clue) 수작업 생성
  • 한 영상 당 평균 10개 QAC 생성

QAC 생성 과정

  • 사람이 영상을 전체 시청 후:
    • 질문 생성 (Perception, Reasoning, Hallucination으로 세분류)
    • 정답 + 오답 선택지 생성
    • 해당 질문을 위해 필요한 단서 시간구간 (interval)도 수작업 표시

품질 관리

  • 7번의 반복 리뷰
  • GPT-4를 이용해 텍스트 기반 정답 추론 가능성 제거 → "이 질문은 텍스트만 보고 풀 수 있나?" → 풀리면 삭제
  • MLLM 모델에게 sparse frame만 주고 테스트 → sparse frame로 풀 수 있으면 삭제
  • clue 다양성 확보 → 특정 시간대 clue만 몰리지 않도록 관리

4️⃣ 어떤 평가 방법을 썼나?

(1) MCQ 평가 (기본)

  • Long-Video MCQ → 영상 전체를 주고 MCQ 풀기
  • Clue-based MCQ → 정답 단서 구간만 주고 MCQ 풀기

(2) 신뢰성 평가 (Credibility Evaluation)

White-box 평가

  • 모델이 직접 clue interval (시간 구간) 출력
  • 이걸 GT와 비교해서 Temporal IoU (tIoU) 계산
    • 쉽게 말해 정답 clue 구간을 얼마나 잘 찾아냈는지 확인

Black-box 평가

  • 전체 영상으로 MCQ 푼 정확도 (long-acc.)
  • clue만 주고 푼 정확도 (clue-acc.)
  • 일반적으로 long-acc. ≥ clue-acc. 되어야 신뢰 가능
  • Clue Recovery Rate (CRR) = min(long-acc., clue-acc.) / clue-acc.
    → long-acc.가 clue-acc.보다 낮으면 심각한 문제

(3) Open-ended QA 평가

  • Free-form QA → 정답 표현 다양성 고려
  • GPT-4o를 evaluator로 활용
  • 저비용 평가 heuristic 제안
    • 텍스트만 보고 채점 가능 여부 먼저 확인
    • 안 되면 pre-annotated clue 구간 frame 샘플링해서 추가 프롬프트 제공
    • 비용 대폭 절감 + 신뢰도 확보

5️⃣ 어떤 결과가 나왔나?

모델Long-acc.mIoU (white-box)CRR (black-box)Open-ended acc
GPT-4o 45.2% 5.62 77.5 39.5
Qwen2-VL-72B 41.3% 3.58 73.5 33.6
InternVL2-78B 42.2% 3.91 72.1 32.5
인간 (전체 영상) 90.3% 35.5 97.9 83.7
 
  • 기존 모델 성능 모두 전반적으로 낮음
  • 특히 clue-grounding (white-box 기준 mIoU) 매우 낮음 → 근거를 못 찾고 있음
  • Open-ended QA 평가도 상당히 낮음 → 다양 표현 수용 어려움
  • 인간과 비교하면 huge gap 존재
  • 장기 문맥 유지, 단서 찾기, reasoning이 현재 모델들의 핵심 약점

6️⃣ 한계 및 의의

한계:

  • 여전히 완벽한 자동 평가 어렵다 → open-ended 평가에 LLM evaluator 의존
  • 아주 긴 영상 (>1hr) 은 frame sampling 한계 존재 (128 frame 제한)

의의:

  • 처음으로 정답 근거 추출 (clue grounding) 을 본격적으로 평가하기 시작
  • 단순 "정답 맞히기"를 넘어서 "왜 그렇게 답했는가"를 검증하는 새로운 패러다임
  • 연구적으로 long video understanding 의 새로운 standard benchmark 제공

요약으로 한 줄로 말하면:

기존처럼 "정답을 맞히느냐"만 보는 것이 아니라 **"정답을 어떻게 찾았느냐 (어디서 근거를 찾았느냐)"**를 평가하는 최초의 대규모 long-video benchmark이다.

 

728x90