250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- 파이썬
- 오블완
- 4948
- video retireval
- 기계학습
- 재귀
- 파이싼
- 1101
- 경사하강법
- 15649
- 1002
- 티스토리챌린지
- streamlit
- REST API
- BOJ
- end to end
- Python
- 손실함수
- 백준
- pyenv
- Retrieval
- N-Queen
- 백트래킹
- 신경망 학습
- 밑바닥부터 시작하는 딥러닝
- 개발환경
- 그리디 알고리즘
- 가상환경
- n과 m
- 9020
Archives
- Today
- Total
파이톨치
QA-TIGER: Question-Aware Gaussian Experts for Audio-Visual Question Answering 본문
논문
QA-TIGER: Question-Aware Gaussian Experts for Audio-Visual Question Answering
파이톨치 2025. 6. 5. 16:55728x90
좋아, 논문 QA-TIGER: Question-Aware Gaussian Experts for Audio-Visual Question Answering 를 예시를 들어 상세히 설명해줄게. 특히 왜 이런 접근을 했는지, 어떻게 접근했는지, 어떤 방식으로 구현했고 어떤 결과를 얻었으며, 어떤 한계가 있는지를 예시 기반으로 논리적으로 서술해볼게.
🔍 왜 이런 접근을 했는가? (Motivation)
기존 AVQA 모델은 다음과 같은 한계가 있음:
- 질문 정보 활용의 한계
대부분의 기존 모델은 질문 정보를 reasoning 단계에서만 사용함. 즉, 오디오-비주얼 feature를 추출하는 과정에는 질문 정보가 반영되지 않음.
→ 질문과 무관한 정보에 많은 연산 자원이 소모됨. - Temporal Grounding 문제
대부분 uniform sampling (예: 1초마다 프레임 추출)을 사용하거나 discrete Top-K selection만 사용함.
→ 질문과 연관된 시간 구간을 정확히 포착하기 어려움. 특히 질문에 따라 "언제" 정보가 중요한 경우 (예: "언제 피아노가 소리나는가?") 처리 불가능.
💡 어떻게 접근했는가? (Approach)
1. 질문 정보 조기 투입 (Early Question Injection)
기존: 질문 정보는 마지막 prediction 단계에서만 사용됨.
QA-TIGER: 입력 feature 추출 단계부터 질문 정보를 반영함.
- 예시:
- 질문: "Are there saxophone and piano sounds?"
- → 오디오는 'sound', 'piano' 토큰에 주로 주목하고, 비디오는 'saxophone'에 집중하도록 attention을 유도함.
- 두 modality 모두 질문을 해석하는 데 기여함.
2. Gaussian 기반 연속 시간 선택 (Continuous Temporal Reasoning)
Top-K 방식은 discrete하게 특정 프레임만 보지만 QA-TIGER는 Gaussian 분포를 사용해서 연속적인 시간 구간을 부드럽게 강조함.
- Gaussian의 중심(µ)과 폭(σ)을 예측하여 시간에 따른 attention을 soft하게 분포시킴.
- Mixture of Experts (MoE) 구조를 도입해 여러 개의 Gaussian 전문가가 시간 축에서 서로 다른 구간을 학습함.
- 예시:
- 질문: "Which clarinet plays the longest?"
- → 오디오는 두 클라리넷의 전체 소리 구간에 각각 Gaussian이 할당됨.
- 시각 정보도 클라리넷들이 연주하는 프레임에 주목함.
- → 두 modality의 Gaussian이 시간 축에서 정렬되어, duration 비교가 가능해짐.
🔧 어떤 방법을 썼는가? (Method)
- 입력 처리: 1초 단위로 분할된 비디오에서 CLIP과 VGGish로 각각 시각과 오디오 feature 추출.
- 질문-모달리티 통합:
- Multi-head Self-Attention + Cross-Attention
- 각 modality(feature)에 질문 정보를 Cross-Attention을 통해 삽입
- 오디오: CA(audio, question)
- 비디오: CA(video, question)
- Temporal Integration with Gaussian Experts:
- 질문 기반 representation을 통해 각 Gaussian expert의 중심과 폭 예측
- MoE router가 질문을 보고 어떤 expert를 활성화할지 결정
- 각 Gaussian이 question-relevant 시간 구간을 soft하게 강조함
- Question-Guided Reasoning:
- 오디오와 비주얼 feature를 평균 및 cross-attention으로 결합
- 최종 representation에서 softmax로 답변 예측
📊 어떤 결과를 얻었는가? (Results)
DatasetQA-TIGER AccuracyPrevious SOTA (TSPM)
MUSIC-AVQA | 77.62% | 76.79% |
MUSIC-AVQA-R | 67.99% | 66.30% |
MUSIC-AVQA-v2.0 | 76.43% | 75.44% (LAST-Att) |
- 오디오 기반 질문 (A-QA), 시각 기반 질문 (V-QA) 모두 높은 성능
- 특히 **복합 reasoning (AV-QA)**에서 강점을 보임
- Inference Time도 TSPM과 유사 (1.737s vs 1.767s) → 효율성 확보
🎯 한계는 무엇인가? (Limitations)
- Gaussian Expert 수 고정
현재는 Gaussian 개수가 고정 (7개)이고, 각 expert가 어디에 주목할지는 학습으로만 결정됨. 질문마다 필요한 전문가 수가 다를 수 있음. - Fully Supervised 기반
Gaussian의 타당성을 정량적으로 증명하기 위한 ground-truth temporal alignment 데이터는 없음 → 설명 가능한 모델로서의 한계 있음. - Generalization 문제
비음악 도메인 (e.g., 영화, 뉴스 영상 등)으로 확장했을 때 성능 보장은 아직 부족함.
📌 요약
구성 요소핵심 아이디어효과
Question-Aware Fusion | 질문 정보를 early-stage에서 반영 | 질문-모달리티 정렬 향상 |
Gaussian Experts | 연속적 시간 구간을 soft하게 강조 | fine-grained temporal reasoning |
MoE 구조 | 다양한 시간 전문가 활성화 | redundancy 제거 및 효율적 포커싱 |
종합 결과 | 다양한 AVQA 데이터셋에서 SOTA | 효율성과 정확성 동시 확보 |
728x90
'논문' 카테고리의 다른 글
YTCommentQA: Video Question Answerability in Instructional Videos (4) | 2025.06.05 |
---|---|
MMR-V: What’s Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos (2) | 2025.06.05 |
VIDEOREASONBENCH: Can MLLMs PerformVision-Centric Complex Video Reasoning? (2) | 2025.06.01 |
Watch and Listen: UnderstandingAudio-Visual-Speech Moments with Multimodal LLM (0) | 2025.05.26 |
ViQAgent (0) | 2025.05.26 |