Watch and Listen: UnderstandingAudio-Visual-Speech Moments with Multimodal LLM

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

파이톨치

Watch and Listen: UnderstandingAudio-Visual-Speech Moments with Multimodal LLM 본문

논문

Watch and Listen: UnderstandingAudio-Visual-Speech Moments with Multimodal LLM

파이톨치 2025. 5. 26. 14:38

728x90

논문 **《Watch and Listen: Understanding Audio-Visual-Speech Moments with Multimodal LLM》**에서는 인간처럼 시각, 청각, 음성 정보를 통합하여 비디오 속 순간을 이해하는 시스템, TriSense를 제안합니다. 요청하신 것처럼, 이 연구의 접근 방식, 이유, 방법, 예시, 결과, 한계까지 예시 중심으로 상세히 정리해드릴게요.

✅ 왜 이렇게 접근했는가? (Motivation)

🔍 문제 인식:

기존 MLLM들은 시각 정보에 의존 → 비디오의 오디오, 음성(말하는 내용)을 활용하지 못함.
실제 비디오 환경에서는 세 가지 모달리티(시각/청각/음성)가 항상 존재하지 않음 → 누락되거나 노이즈가 많음.
따라서, 모달리티가 선택적으로 주어지는 상황에서도 강인한 모델이 필요함.

🎯 해결 목표:

다양한 모달리티 조합에서 시간 정보를 포함한 복합적 비디오 이해를 달성.
쿼리에 따라 가장 관련 있는 모달리티를 동적으로 강조할 수 있는 구조 필요.

🧠 어떻게 접근했는가? (Approach)

💡 핵심 아이디어:

Query에 따라 Vision, Audio, Speech 중 어떤 모달리티가 중요한지 동적으로 판단하고 가중치를 부여하는 Query-Based Connector 설계

🏗️ 어떤 방법을 썼는가? (Method)

1. 📦 TriSense-2M Dataset 구성

특성내용

데이터 수	2M (200만 개)
길이	평균 905초 (기존보다 훨씬 긴 비디오)
모달리티	Vision, Audio, Speech 모두 지원 + 일부 누락 구성도 포함
생성 방식	Visual/Audio/Speech Caption → LLM Generator로 합성 → LLM Judger로 평가 후 필터링

🔎 예시:

시각 캡션: "두 남자가 박수를 치고 있음"
음향 캡션: "사람이 소리치고 있음"
음성 캡션: "This is the ugliest thing you’re gonna do."
합성된 AVS 캡션: "두 남자가 박수를 치며 웃고 이야기하며, 한 명이 'This is the ugliest thing...'이라 말함"

2. 🧠 TriSense 모델 아키텍처

모달리티 별 인코더 (Vision/Audio/Speech)
Cross-Attention으로 쿼리와의 상호작용
Query-Based Connector:
- 각 모달리티별 전역 벡터 생성 (cv, ca, cs)
- 이를 통해 Softmax 기반 가중치 wv, wa, ws 계산
- 쿼리 기반으로 가장 중요한 modality를 강조 (예: 시끄러운 길거리에서 인터뷰 → audio와 speech 강조)
LLM (Mistral-7B)로 reasoning
⟨sync⟩ 토큰 기반으로 시간 예측과 텍스트 예측을 전환

🔍 예시 기반 설명 (Task 예시)

Task 유형쿼리TriSense 처리 방식

AVS Moment Retrieval	“A man wearing a white mask is talking about sponsor Bokksu snacks with noisy background”	Vision: 마스크 착용, Speech: Bokksu 언급, Audio: 거리 소음 → 모두 사용되어 [97.3, 105.6] 추출
Visual-Speech Segment Captioning	“What happens between 97.3s and 105.6s visually and verbally?”	Audio는 무시, Vision과 Speech 모달리티 강조
Visual-Only Moment Retrieval	"Two men walking"	Vision만 사용해서 해당 프레임 추출 (e.g., [50.2, 59.4])

📊 어떤 결과를 얻었는가? (Results)

Segment Captioning (BLEU4 / CIDEr 등)

모델AVSVSAVV

TriSense (7B)	3.4 / 8.3	3.0 / 11.8	5.3 / 15.4	7.3 / 36.3
LongVALE	1.2 / 4.9	2.3 / 5.5	2.5 / 5.9	1.5 / 0.9

Moment Retrieval (IoU=0.5 기준)

설정TriSenseLongVALEQwen2.5-Omni

AVS	1.12	0.08	0.61
VS	0.80	0.07	0.61
AV	0.57	0.07	0.28

요약: 거의 모든 설정에서 TriSense가 SOTA를 압도적으로 능가함.

⚠️ 어떤 한계가 있는가? (Limitations)

Visual-only 설정에서는 전용 모델 대비 성능 낮음
- 이유: TriSense는 멀티모달에 최적화되어 있어 Vision만 있는 경우 상대적으로 성능 저하
64 프레임 제한
- 다른 모델은 100~128 프레임 사용 → 긴 비디오에서 프레임 수 제한은 성능 저하 요인
추론 시간이 비교적 김
- Query-based weighting, 여러 모달리티 처리 등으로 인해 latency 증가 가능성 있음
학습비용 높음
- Mistral-7B + BEATs + Whisper + CLIP 등 고사양 구성

✨ 정리

항목요약

접근 이유	인간처럼 multimodal 정보를 기반으로 시간적 맥락을 이해하고 싶음
접근 방법	Vision, Audio, Speech를 query 기반으로 동적으로 결합하는 MLLM 구조
핵심 구성	Query-Based Connector + LLM (Mistral) + TriSense-2M 대규모 dataset
주요 장점	다양한 모달리티 조합 대응 가능, 쿼리에 따라 유연하게 modality 선택
대표 성능	SOTA 달성 (AVS/VS/AV 기준 Moment Retrieval & Captioning 모두)
한계점	Visual-only 성능 낮음, 프레임 수 제한으로 long-video 성능은 다소 저하 가능

728x90

저작자표시 (새창열림)

'논문' 카테고리의 다른 글

MMR-V: What’s Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos (2)	2025.06.05
VIDEOREASONBENCH: Can MLLMs PerformVision-Centric Complex Video Reasoning? (2)	2025.06.01
ViQAgent (0)	2025.05.26
VIDEOEVAL-PRO (2)	2025.05.25
MLVU: Multi-task Long Video Understanding Benchmark (2)	2025.05.25

'논문' Related Articles

파이톨치

Watch and Listen: UnderstandingAudio-Visual-Speech Moments with Multimodal LLM 본문

Watch and Listen: UnderstandingAudio-Visual-Speech Moments with Multimodal LLM

✅ 왜 이렇게 접근했는가? (Motivation)

🔍 문제 인식:

🎯 해결 목표:

🧠 어떻게 접근했는가? (Approach)

💡 핵심 아이디어:

🏗️ 어떤 방법을 썼는가? (Method)

1. 📦 TriSense-2M Dataset 구성

2. 🧠 TriSense 모델 아키텍처

🔍 예시 기반 설명 (Task 예시)

📊 어떤 결과를 얻었는가? (Results)

Segment Captioning (BLEU4 / CIDEr 등)

Moment Retrieval (IoU=0.5 기준)

⚠️ 어떤 한계가 있는가? (Limitations)

✨ 정리

'논문' 카테고리의 다른 글

티스토리툴바