250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- N-Queen
- Python
- 1002
- streamlit
- 1101
- 파이썬
- 재귀
- 오블완
- 손실함수
- 밑바닥부터 시작하는 딥러닝
- 9020
- BOJ
- 파이싼
- n과 m
- 15649
- 가상환경
- 기계학습
- 경사하강법
- 백준
- 티스토리챌린지
- end to end
- 개발환경
- 4948
- REST API
- pyenv
- video retireval
- Retrieval
- 그리디 알고리즘
- 백트래킹
- 신경망 학습
Archives
- Today
- Total
파이톨치
CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding 본문
카테고리 없음
CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding
파이톨치 2025. 6. 24. 13:06728x90
(참고: 이 논문은 「CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding」입니다.)
1️⃣ 왜 이렇게 접근했는가? (문제의식)
기존 문제점:
- 기존 VideoQA 벤치마크 대부분 짧은 영상 (수 초 ~ 수 분) 중심 → 장시간 영상 (10분 이상)은 상대적으로 평가 부족.
- 기존 Long-Video 벤치마크도 있지만 대부분 Multiple Choice Question (MCQ) 중심 → 모델이 옵션 제거 (elimination) 방식으로 풀어버림.
- 예: "이탈리아에서 노래 부른 뒤 뭘 했는가?"
- 선택지 중 "루브르 박물관으로 갔다" → 상식적으로 틀렸으니 제거 → 정답 추론할 필요 없이 걸러짐.
- 즉, 진짜로 영상을 본 건지 알 수 없음 → 신뢰성 낮음.
- 예: "이탈리아에서 노래 부른 뒤 뭘 했는가?"
핵심 문제의식
- "정답 맞히는 것" 자체보다, 정답에 이르는 과정이 중요한데 이를 기존 벤치마크는 평가하지 못한다.
- 영상 속에서 정답의 단서(clue) 를 제대로 찾아냈는지 검증하고 싶다.
2️⃣ 어떻게 접근했는가? (핵심 아이디어)
핵심 접근법:
- "Clue-grounded QA":
정답을 맞힐 뿐만 아니라, 그 정답의 근거가 된 영상의 시간 구간(interval) 도 함께 예측하도록 요구. - 평가를 2가지로 나눔:
- White-box 평가 (명시적 근거 요구)
→ 모델이 "00:03:15 ~ 00:03:22 구간이 근거입니다"라고 직접 출력 - Black-box 평가 (암묵적 근거 확인)
→ 전체 영상을 줬을 때 MCQ 정확도가 단서 구간만 줬을 때보다 높아야 함 (정말 clue 찾아봤는지 검증)
- White-box 평가 (명시적 근거 요구)
예시 (논문 속 실제 예시 일부):
- Q1: 암스테르담 시장에서 주인공이 만진 사진틀 개수는?
- 단서가 되는 부분: 시장을 걷는 장면 중 사진틀을 만지는 부분 (해당 timestamp 제공됨)
- Q3: 루브르에서 사람들이 둘러싼 세계적 명화는?
- 단서가 되는 부분: 루브르 장면 중 관람객들이 붐비는 특정 그림 촬영 장면
3️⃣ 어떤 방법으로 데이터셋을 만들었나?
전체 데이터 구성
- 1,219개의 10분 이상 긴 영상 (총 20~80분 길이 분포)
- 14개 대분류, 171개 중분류, 638개 세분류 → 다양한 영상 콘텐츠 확보
- 12,129개의 QAC triplet (Question-Answer-Clue) 수작업 생성
- 한 영상 당 평균 10개 QAC 생성
QAC 생성 과정
- 사람이 영상을 전체 시청 후:
- 질문 생성 (Perception, Reasoning, Hallucination으로 세분류)
- 정답 + 오답 선택지 생성
- 해당 질문을 위해 필요한 단서 시간구간 (interval)도 수작업 표시
품질 관리
- 7번의 반복 리뷰
- GPT-4를 이용해 텍스트 기반 정답 추론 가능성 제거 → "이 질문은 텍스트만 보고 풀 수 있나?" → 풀리면 삭제
- MLLM 모델에게 sparse frame만 주고 테스트 → sparse frame로 풀 수 있으면 삭제
- clue 다양성 확보 → 특정 시간대 clue만 몰리지 않도록 관리
4️⃣ 어떤 평가 방법을 썼나?
(1) MCQ 평가 (기본)
- Long-Video MCQ → 영상 전체를 주고 MCQ 풀기
- Clue-based MCQ → 정답 단서 구간만 주고 MCQ 풀기
(2) 신뢰성 평가 (Credibility Evaluation)
White-box 평가
- 모델이 직접 clue interval (시간 구간) 출력
- 이걸 GT와 비교해서 Temporal IoU (tIoU) 계산
- 쉽게 말해 정답 clue 구간을 얼마나 잘 찾아냈는지 확인
Black-box 평가
- 전체 영상으로 MCQ 푼 정확도 (long-acc.)
- clue만 주고 푼 정확도 (clue-acc.)
- 일반적으로 long-acc. ≥ clue-acc. 되어야 신뢰 가능
- Clue Recovery Rate (CRR) = min(long-acc., clue-acc.) / clue-acc.
→ long-acc.가 clue-acc.보다 낮으면 심각한 문제
(3) Open-ended QA 평가
- Free-form QA → 정답 표현 다양성 고려
- GPT-4o를 evaluator로 활용
- 저비용 평가 heuristic 제안
- 텍스트만 보고 채점 가능 여부 먼저 확인
- 안 되면 pre-annotated clue 구간 frame 샘플링해서 추가 프롬프트 제공
- 비용 대폭 절감 + 신뢰도 확보
5️⃣ 어떤 결과가 나왔나?
모델Long-acc.mIoU (white-box)CRR (black-box)Open-ended acc
GPT-4o | 45.2% | 5.62 | 77.5 | 39.5 |
Qwen2-VL-72B | 41.3% | 3.58 | 73.5 | 33.6 |
InternVL2-78B | 42.2% | 3.91 | 72.1 | 32.5 |
인간 (전체 영상) | 90.3% | 35.5 | 97.9 | 83.7 |
- 기존 모델 성능 모두 전반적으로 낮음
- 특히 clue-grounding (white-box 기준 mIoU) 매우 낮음 → 근거를 못 찾고 있음
- Open-ended QA 평가도 상당히 낮음 → 다양 표현 수용 어려움
- 인간과 비교하면 huge gap 존재
- 장기 문맥 유지, 단서 찾기, reasoning이 현재 모델들의 핵심 약점
6️⃣ 한계 및 의의
한계:
- 여전히 완벽한 자동 평가 어렵다 → open-ended 평가에 LLM evaluator 의존
- 아주 긴 영상 (>1hr) 은 frame sampling 한계 존재 (128 frame 제한)
의의:
- 처음으로 정답 근거 추출 (clue grounding) 을 본격적으로 평가하기 시작
- 단순 "정답 맞히기"를 넘어서 "왜 그렇게 답했는가"를 검증하는 새로운 패러다임
- 연구적으로 long video understanding 의 새로운 standard benchmark 제공
요약으로 한 줄로 말하면:
기존처럼 "정답을 맞히느냐"만 보는 것이 아니라 **"정답을 어떻게 찾았느냐 (어디서 근거를 찾았느냐)"**를 평가하는 최초의 대규모 long-video benchmark이다.
728x90