250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- 재귀
- Python
- 그리디 알고리즘
- 기계학습
- REST API
- 1002
- 오블완
- 백준
- 손실함수
- pyenv
- 9020
- N-Queen
- 4948
- 개발환경
- BOJ
- 15649
- Retrieval
- 가상환경
- 1101
- 파이썬
- n과 m
- video retireval
- streamlit
- 파이싼
- 밑바닥부터 시작하는 딥러닝
- end to end
- 신경망 학습
- 백트래킹
- 티스토리챌린지
- 경사하강법
Archives
- Today
- Total
파이톨치
Watch and Listen: UnderstandingAudio-Visual-Speech Moments with Multimodal LLM 본문
논문
Watch and Listen: UnderstandingAudio-Visual-Speech Moments with Multimodal LLM
파이톨치 2025. 5. 26. 14:38728x90
논문 **《Watch and Listen: Understanding Audio-Visual-Speech Moments with Multimodal LLM》**에서는 인간처럼 시각, 청각, 음성 정보를 통합하여 비디오 속 순간을 이해하는 시스템, TriSense를 제안합니다. 요청하신 것처럼, 이 연구의 접근 방식, 이유, 방법, 예시, 결과, 한계까지 예시 중심으로 상세히 정리해드릴게요.
✅ 왜 이렇게 접근했는가? (Motivation)
🔍 문제 인식:
- 기존 MLLM들은 시각 정보에 의존 → 비디오의 오디오, 음성(말하는 내용)을 활용하지 못함.
- 실제 비디오 환경에서는 세 가지 모달리티(시각/청각/음성)가 항상 존재하지 않음 → 누락되거나 노이즈가 많음.
- 따라서, 모달리티가 선택적으로 주어지는 상황에서도 강인한 모델이 필요함.
🎯 해결 목표:
- 다양한 모달리티 조합에서 시간 정보를 포함한 복합적 비디오 이해를 달성.
- 쿼리에 따라 가장 관련 있는 모달리티를 동적으로 강조할 수 있는 구조 필요.
🧠 어떻게 접근했는가? (Approach)
💡 핵심 아이디어:
Query에 따라 Vision, Audio, Speech 중 어떤 모달리티가 중요한지 동적으로 판단하고 가중치를 부여하는 Query-Based Connector 설계
🏗️ 어떤 방법을 썼는가? (Method)
1. 📦 TriSense-2M Dataset 구성
특성내용
데이터 수 | 2M (200만 개) |
길이 | 평균 905초 (기존보다 훨씬 긴 비디오) |
모달리티 | Vision, Audio, Speech 모두 지원 + 일부 누락 구성도 포함 |
생성 방식 | Visual/Audio/Speech Caption → LLM Generator로 합성 → LLM Judger로 평가 후 필터링 |
🔎 예시:
- 시각 캡션: "두 남자가 박수를 치고 있음"
- 음향 캡션: "사람이 소리치고 있음"
- 음성 캡션: "This is the ugliest thing you’re gonna do."
- 합성된 AVS 캡션: "두 남자가 박수를 치며 웃고 이야기하며, 한 명이 'This is the ugliest thing...'이라 말함"
2. 🧠 TriSense 모델 아키텍처
- 모달리티 별 인코더 (Vision/Audio/Speech)
- Cross-Attention으로 쿼리와의 상호작용
- Query-Based Connector:
- 각 모달리티별 전역 벡터 생성 (cv, ca, cs)
- 이를 통해 Softmax 기반 가중치 wv, wa, ws 계산
- 쿼리 기반으로 가장 중요한 modality를 강조 (예: 시끄러운 길거리에서 인터뷰 → audio와 speech 강조)
- LLM (Mistral-7B)로 reasoning
- 〈sync〉 토큰 기반으로 시간 예측과 텍스트 예측을 전환
🔍 예시 기반 설명 (Task 예시)
Task 유형쿼리TriSense 처리 방식
AVS Moment Retrieval | “A man wearing a white mask is talking about sponsor Bokksu snacks with noisy background” | Vision: 마스크 착용, Speech: Bokksu 언급, Audio: 거리 소음 → 모두 사용되어 [97.3, 105.6] 추출 |
Visual-Speech Segment Captioning | “What happens between 97.3s and 105.6s visually and verbally?” | Audio는 무시, Vision과 Speech 모달리티 강조 |
Visual-Only Moment Retrieval | "Two men walking" | Vision만 사용해서 해당 프레임 추출 (e.g., [50.2, 59.4]) |
📊 어떤 결과를 얻었는가? (Results)
Segment Captioning (BLEU4 / CIDEr 등)
모델AVSVSAVV
TriSense (7B) | 3.4 / 8.3 | 3.0 / 11.8 | 5.3 / 15.4 | 7.3 / 36.3 |
LongVALE | 1.2 / 4.9 | 2.3 / 5.5 | 2.5 / 5.9 | 1.5 / 0.9 |
Moment Retrieval (IoU=0.5 기준)
설정TriSenseLongVALEQwen2.5-Omni
AVS | 1.12 | 0.08 | 0.61 |
VS | 0.80 | 0.07 | 0.61 |
AV | 0.57 | 0.07 | 0.28 |
요약: 거의 모든 설정에서 TriSense가 SOTA를 압도적으로 능가함.
⚠️ 어떤 한계가 있는가? (Limitations)
- Visual-only 설정에서는 전용 모델 대비 성능 낮음
- 이유: TriSense는 멀티모달에 최적화되어 있어 Vision만 있는 경우 상대적으로 성능 저하
- 64 프레임 제한
- 다른 모델은 100~128 프레임 사용 → 긴 비디오에서 프레임 수 제한은 성능 저하 요인
- 추론 시간이 비교적 김
- Query-based weighting, 여러 모달리티 처리 등으로 인해 latency 증가 가능성 있음
- 학습비용 높음
- Mistral-7B + BEATs + Whisper + CLIP 등 고사양 구성
✨ 정리
항목요약
접근 이유 | 인간처럼 multimodal 정보를 기반으로 시간적 맥락을 이해하고 싶음 |
접근 방법 | Vision, Audio, Speech를 query 기반으로 동적으로 결합하는 MLLM 구조 |
핵심 구성 | Query-Based Connector + LLM (Mistral) + TriSense-2M 대규모 dataset |
주요 장점 | 다양한 모달리티 조합 대응 가능, 쿼리에 따라 유연하게 modality 선택 |
대표 성능 | SOTA 달성 (AVS/VS/AV 기준 Moment Retrieval & Captioning 모두) |
한계점 | Visual-only 성능 낮음, 프레임 수 제한으로 long-video 성능은 다소 저하 가능 |
728x90
'논문' 카테고리의 다른 글
MMR-V: What’s Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos (2) | 2025.06.05 |
---|---|
VIDEOREASONBENCH: Can MLLMs PerformVision-Centric Complex Video Reasoning? (2) | 2025.06.01 |
ViQAgent (0) | 2025.05.26 |
VIDEOEVAL-PRO (2) | 2025.05.25 |
MLVU: Multi-task Long Video Understanding Benchmark (2) | 2025.05.25 |