250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

파이톨치

CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding 본문

카테고리 없음

CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding

파이톨치 2025. 6. 24. 13:06

728x90

(참고: 이 논문은 「CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding」입니다.)

1️⃣ 왜 이렇게 접근했는가? (문제의식)

기존 문제점:

기존 VideoQA 벤치마크 대부분 짧은 영상 (수 초 ~ 수 분) 중심 → 장시간 영상 (10분 이상)은 상대적으로 평가 부족.
기존 Long-Video 벤치마크도 있지만 대부분 Multiple Choice Question (MCQ) 중심 → 모델이 옵션 제거 (elimination) 방식으로 풀어버림.
- 예: "이탈리아에서 노래 부른 뒤 뭘 했는가?"
  - 선택지 중 "루브르 박물관으로 갔다" → 상식적으로 틀렸으니 제거 → 정답 추론할 필요 없이 걸러짐.
- 즉, 진짜로 영상을 본 건지 알 수 없음 → 신뢰성 낮음.

핵심 문제의식

"정답 맞히는 것" 자체보다, 정답에 이르는 과정이 중요한데 이를 기존 벤치마크는 평가하지 못한다.
영상 속에서 정답의 단서(clue) 를 제대로 찾아냈는지 검증하고 싶다.

2️⃣ 어떻게 접근했는가? (핵심 아이디어)

핵심 접근법:

"Clue-grounded QA":
정답을 맞힐 뿐만 아니라, 그 정답의 근거가 된 영상의 시간 구간(interval) 도 함께 예측하도록 요구.
평가를 2가지로 나눔:
- White-box 평가 (명시적 근거 요구)
  → 모델이 "00:03:15 ~ 00:03:22 구간이 근거입니다"라고 직접 출력
- Black-box 평가 (암묵적 근거 확인)
  → 전체 영상을 줬을 때 MCQ 정확도가 단서 구간만 줬을 때보다 높아야 함 (정말 clue 찾아봤는지 검증)

예시 (논문 속 실제 예시 일부):

Q1: 암스테르담 시장에서 주인공이 만진 사진틀 개수는?
- 단서가 되는 부분: 시장을 걷는 장면 중 사진틀을 만지는 부분 (해당 timestamp 제공됨)
Q3: 루브르에서 사람들이 둘러싼 세계적 명화는?
- 단서가 되는 부분: 루브르 장면 중 관람객들이 붐비는 특정 그림 촬영 장면

3️⃣ 어떤 방법으로 데이터셋을 만들었나?

전체 데이터 구성

1,219개의 10분 이상 긴 영상 (총 20~80분 길이 분포)
14개 대분류, 171개 중분류, 638개 세분류 → 다양한 영상 콘텐츠 확보
12,129개의 QAC triplet (Question-Answer-Clue) 수작업 생성
한 영상 당 평균 10개 QAC 생성

QAC 생성 과정

사람이 영상을 전체 시청 후:
- 질문 생성 (Perception, Reasoning, Hallucination으로 세분류)
- 정답 + 오답 선택지 생성
- 해당 질문을 위해 필요한 단서 시간구간 (interval)도 수작업 표시

품질 관리

7번의 반복 리뷰
GPT-4를 이용해 텍스트 기반 정답 추론 가능성 제거 → "이 질문은 텍스트만 보고 풀 수 있나?" → 풀리면 삭제
MLLM 모델에게 sparse frame만 주고 테스트 → sparse frame로 풀 수 있으면 삭제
clue 다양성 확보 → 특정 시간대 clue만 몰리지 않도록 관리

4️⃣ 어떤 평가 방법을 썼나?

(1) MCQ 평가 (기본)

Long-Video MCQ → 영상 전체를 주고 MCQ 풀기
Clue-based MCQ → 정답 단서 구간만 주고 MCQ 풀기

(2) 신뢰성 평가 (Credibility Evaluation)

White-box 평가

모델이 직접 clue interval (시간 구간) 출력
이걸 GT와 비교해서 Temporal IoU (tIoU) 계산
- 쉽게 말해 정답 clue 구간을 얼마나 잘 찾아냈는지 확인

Black-box 평가

전체 영상으로 MCQ 푼 정확도 (long-acc.)
clue만 주고 푼 정확도 (clue-acc.)
일반적으로 long-acc. ≥ clue-acc. 되어야 신뢰 가능
Clue Recovery Rate (CRR) = min(long-acc., clue-acc.) / clue-acc.
→ long-acc.가 clue-acc.보다 낮으면 심각한 문제

(3) Open-ended QA 평가

Free-form QA → 정답 표현 다양성 고려
GPT-4o를 evaluator로 활용
저비용 평가 heuristic 제안
- 텍스트만 보고 채점 가능 여부 먼저 확인
- 안 되면 pre-annotated clue 구간 frame 샘플링해서 추가 프롬프트 제공
- 비용 대폭 절감 + 신뢰도 확보

5️⃣ 어떤 결과가 나왔나?

모델Long-acc.mIoU (white-box)CRR (black-box)Open-ended acc

GPT-4o	45.2%	5.62	77.5	39.5
Qwen2-VL-72B	41.3%	3.58	73.5	33.6
InternVL2-78B	42.2%	3.91	72.1	32.5
인간 (전체 영상)	90.3%	35.5	97.9	83.7

기존 모델 성능 모두 전반적으로 낮음
특히 clue-grounding (white-box 기준 mIoU) 매우 낮음 → 근거를 못 찾고 있음
Open-ended QA 평가도 상당히 낮음 → 다양 표현 수용 어려움
인간과 비교하면 huge gap 존재
장기 문맥 유지, 단서 찾기, reasoning이 현재 모델들의 핵심 약점

6️⃣ 한계 및 의의

한계:

여전히 완벽한 자동 평가 어렵다 → open-ended 평가에 LLM evaluator 의존
아주 긴 영상 (>1hr) 은 frame sampling 한계 존재 (128 frame 제한)

의의:

처음으로 정답 근거 추출 (clue grounding) 을 본격적으로 평가하기 시작
단순 "정답 맞히기"를 넘어서 "왜 그렇게 답했는가"를 검증하는 새로운 패러다임
연구적으로 long video understanding 의 새로운 standard benchmark 제공

요약으로 한 줄로 말하면:

기존처럼 "정답을 맞히느냐"만 보는 것이 아니라 **"정답을 어떻게 찾았느냐 (어디서 근거를 찾았느냐)"**를 평가하는 최초의 대규모 long-video benchmark이다.