QA-TIGER: Question-Aware Gaussian Experts for Audio-Visual Question Answering

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

파이톨치

QA-TIGER: Question-Aware Gaussian Experts for Audio-Visual Question Answering 본문

논문

QA-TIGER: Question-Aware Gaussian Experts for Audio-Visual Question Answering

파이톨치 2025. 6. 5. 16:55

728x90

좋아, 논문 QA-TIGER: Question-Aware Gaussian Experts for Audio-Visual Question Answering 를 예시를 들어 상세히 설명해줄게. 특히 왜 이런 접근을 했는지, 어떻게 접근했는지, 어떤 방식으로 구현했고 어떤 결과를 얻었으며, 어떤 한계가 있는지를 예시 기반으로 논리적으로 서술해볼게.

🔍 왜 이런 접근을 했는가? (Motivation)

기존 AVQA 모델은 다음과 같은 한계가 있음:

질문 정보 활용의 한계
대부분의 기존 모델은 질문 정보를 reasoning 단계에서만 사용함. 즉, 오디오-비주얼 feature를 추출하는 과정에는 질문 정보가 반영되지 않음.
→ 질문과 무관한 정보에 많은 연산 자원이 소모됨.
Temporal Grounding 문제
대부분 uniform sampling (예: 1초마다 프레임 추출)을 사용하거나 discrete Top-K selection만 사용함.
→ 질문과 연관된 시간 구간을 정확히 포착하기 어려움. 특히 질문에 따라 "언제" 정보가 중요한 경우 (예: "언제 피아노가 소리나는가?") 처리 불가능.

💡 어떻게 접근했는가? (Approach)

1. 질문 정보 조기 투입 (Early Question Injection)

기존: 질문 정보는 마지막 prediction 단계에서만 사용됨.
QA-TIGER: 입력 feature 추출 단계부터 질문 정보를 반영함.

예시:
- 질문: "Are there saxophone and piano sounds?"
- → 오디오는 'sound', 'piano' 토큰에 주로 주목하고, 비디오는 'saxophone'에 집중하도록 attention을 유도함.
- 두 modality 모두 질문을 해석하는 데 기여함.

2. Gaussian 기반 연속 시간 선택 (Continuous Temporal Reasoning)

Top-K 방식은 discrete하게 특정 프레임만 보지만 QA-TIGER는 Gaussian 분포를 사용해서 연속적인 시간 구간을 부드럽게 강조함.

Gaussian의 중심(µ)과 폭(σ)을 예측하여 시간에 따른 attention을 soft하게 분포시킴.
Mixture of Experts (MoE) 구조를 도입해 여러 개의 Gaussian 전문가가 시간 축에서 서로 다른 구간을 학습함.
예시:
- 질문: "Which clarinet plays the longest?"
- → 오디오는 두 클라리넷의 전체 소리 구간에 각각 Gaussian이 할당됨.
- 시각 정보도 클라리넷들이 연주하는 프레임에 주목함.
- → 두 modality의 Gaussian이 시간 축에서 정렬되어, duration 비교가 가능해짐.

🔧 어떤 방법을 썼는가? (Method)

입력 처리: 1초 단위로 분할된 비디오에서 CLIP과 VGGish로 각각 시각과 오디오 feature 추출.
질문-모달리티 통합:
- Multi-head Self-Attention + Cross-Attention
- 각 modality(feature)에 질문 정보를 Cross-Attention을 통해 삽입
- 오디오: CA(audio, question)
- 비디오: CA(video, question)
Temporal Integration with Gaussian Experts:
- 질문 기반 representation을 통해 각 Gaussian expert의 중심과 폭 예측
- MoE router가 질문을 보고 어떤 expert를 활성화할지 결정
- 각 Gaussian이 question-relevant 시간 구간을 soft하게 강조함
Question-Guided Reasoning:
- 오디오와 비주얼 feature를 평균 및 cross-attention으로 결합
- 최종 representation에서 softmax로 답변 예측

📊 어떤 결과를 얻었는가? (Results)

DatasetQA-TIGER AccuracyPrevious SOTA (TSPM)

MUSIC-AVQA	77.62%	76.79%
MUSIC-AVQA-R	67.99%	66.30%
MUSIC-AVQA-v2.0	76.43%	75.44% (LAST-Att)

오디오 기반 질문 (A-QA), 시각 기반 질문 (V-QA) 모두 높은 성능
특히 **복합 reasoning (AV-QA)**에서 강점을 보임
Inference Time도 TSPM과 유사 (1.737s vs 1.767s) → 효율성 확보

🎯 한계는 무엇인가? (Limitations)

Gaussian Expert 수 고정
현재는 Gaussian 개수가 고정 (7개)이고, 각 expert가 어디에 주목할지는 학습으로만 결정됨. 질문마다 필요한 전문가 수가 다를 수 있음.
Fully Supervised 기반
Gaussian의 타당성을 정량적으로 증명하기 위한 ground-truth temporal alignment 데이터는 없음 → 설명 가능한 모델로서의 한계 있음.
Generalization 문제
비음악 도메인 (e.g., 영화, 뉴스 영상 등)으로 확장했을 때 성능 보장은 아직 부족함.

📌 요약

구성 요소핵심 아이디어효과

Question-Aware Fusion	질문 정보를 early-stage에서 반영	질문-모달리티 정렬 향상
Gaussian Experts	연속적 시간 구간을 soft하게 강조	fine-grained temporal reasoning
MoE 구조	다양한 시간 전문가 활성화	redundancy 제거 및 효율적 포커싱
종합 결과	다양한 AVQA 데이터셋에서 SOTA	효율성과 정확성 동시 확보

728x90

저작자표시 (새창열림)

'논문' 카테고리의 다른 글

YTCommentQA: Video Question Answerability in Instructional Videos (4)	2025.06.05
MMR-V: What’s Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos (2)	2025.06.05
VIDEOREASONBENCH: Can MLLMs PerformVision-Centric Complex Video Reasoning? (2)	2025.06.01
Watch and Listen: UnderstandingAudio-Visual-Speech Moments with Multimodal LLM (0)	2025.05.26
ViQAgent (0)	2025.05.26

'논문' Related Articles

파이톨치

QA-TIGER: Question-Aware Gaussian Experts for Audio-Visual Question Answering 본문

QA-TIGER: Question-Aware Gaussian Experts for Audio-Visual Question Answering

🔍 왜 이런 접근을 했는가? (Motivation)

💡 어떻게 접근했는가? (Approach)

1. 질문 정보 조기 투입 (Early Question Injection)

2. Gaussian 기반 연속 시간 선택 (Continuous Temporal Reasoning)

🔧 어떤 방법을 썼는가? (Method)

📊 어떤 결과를 얻었는가? (Results)

🎯 한계는 무엇인가? (Limitations)

📌 요약

'논문' 카테고리의 다른 글

티스토리툴바