파이톨치

Watch and Listen: UnderstandingAudio-Visual-Speech Moments with Multimodal LLM 본문

논문

Watch and Listen: UnderstandingAudio-Visual-Speech Moments with Multimodal LLM

파이톨치 2025. 5. 26. 14:38
728x90

논문 **《Watch and Listen: Understanding Audio-Visual-Speech Moments with Multimodal LLM》**에서는 인간처럼 시각, 청각, 음성 정보를 통합하여 비디오 속 순간을 이해하는 시스템, TriSense를 제안합니다. 요청하신 것처럼, 이 연구의 접근 방식, 이유, 방법, 예시, 결과, 한계까지 예시 중심으로 상세히 정리해드릴게요.


✅ 왜 이렇게 접근했는가? (Motivation)

🔍 문제 인식:

  1. 기존 MLLM들은 시각 정보에 의존비디오의 오디오, 음성(말하는 내용)을 활용하지 못함.
  2. 실제 비디오 환경에서는 세 가지 모달리티(시각/청각/음성)가 항상 존재하지 않음 → 누락되거나 노이즈가 많음.
  3. 따라서, 모달리티가 선택적으로 주어지는 상황에서도 강인한 모델이 필요함.

🎯 해결 목표:

  • 다양한 모달리티 조합에서 시간 정보를 포함한 복합적 비디오 이해를 달성.
  • 쿼리에 따라 가장 관련 있는 모달리티를 동적으로 강조할 수 있는 구조 필요.

🧠 어떻게 접근했는가? (Approach)

💡 핵심 아이디어:

Query에 따라 Vision, Audio, Speech 중 어떤 모달리티가 중요한지 동적으로 판단하고 가중치를 부여하는 Query-Based Connector 설계

🏗️ 어떤 방법을 썼는가? (Method)

1. 📦 TriSense-2M Dataset 구성

특성내용
데이터 수 2M (200만 개)
길이 평균 905초 (기존보다 훨씬 긴 비디오)
모달리티 Vision, Audio, Speech 모두 지원 + 일부 누락 구성도 포함
생성 방식 Visual/Audio/Speech Caption → LLM Generator로 합성 → LLM Judger로 평가 후 필터링
 

🔎 예시:

  • 시각 캡션: "두 남자가 박수를 치고 있음"
  • 음향 캡션: "사람이 소리치고 있음"
  • 음성 캡션: "This is the ugliest thing you’re gonna do."
  • 합성된 AVS 캡션: "두 남자가 박수를 치며 웃고 이야기하며, 한 명이 'This is the ugliest thing...'이라 말함"

2. 🧠 TriSense 모델 아키텍처

  • 모달리티 별 인코더 (Vision/Audio/Speech)
  • Cross-Attention으로 쿼리와의 상호작용
  • Query-Based Connector:
    • 각 모달리티별 전역 벡터 생성 (cv, ca, cs)
    • 이를 통해 Softmax 기반 가중치 wv, wa, ws 계산
    • 쿼리 기반으로 가장 중요한 modality를 강조 (예: 시끄러운 길거리에서 인터뷰 → audio와 speech 강조)
  • LLM (Mistral-7B)로 reasoning
  • ⟨sync⟩ 토큰 기반으로 시간 예측과 텍스트 예측을 전환

🔍 예시 기반 설명 (Task 예시)

Task 유형쿼리TriSense 처리 방식
AVS Moment Retrieval “A man wearing a white mask is talking about sponsor Bokksu snacks with noisy background” Vision: 마스크 착용, Speech: Bokksu 언급, Audio: 거리 소음 → 모두 사용되어 [97.3, 105.6] 추출
Visual-Speech Segment Captioning “What happens between 97.3s and 105.6s visually and verbally?” Audio는 무시, Vision과 Speech 모달리티 강조
Visual-Only Moment Retrieval "Two men walking" Vision만 사용해서 해당 프레임 추출 (e.g., [50.2, 59.4])
 

📊 어떤 결과를 얻었는가? (Results)

Segment Captioning (BLEU4 / CIDEr 등)

모델AVSVSAVV
TriSense (7B) 3.4 / 8.3 3.0 / 11.8 5.3 / 15.4 7.3 / 36.3
LongVALE 1.2 / 4.9 2.3 / 5.5 2.5 / 5.9 1.5 / 0.9
 

Moment Retrieval (IoU=0.5 기준)

설정TriSenseLongVALEQwen2.5-Omni
AVS 1.12 0.08 0.61
VS 0.80 0.07 0.61
AV 0.57 0.07 0.28
 

요약: 거의 모든 설정에서 TriSense가 SOTA를 압도적으로 능가함.

⚠️ 어떤 한계가 있는가? (Limitations)

  1. Visual-only 설정에서는 전용 모델 대비 성능 낮음
    • 이유: TriSense는 멀티모달에 최적화되어 있어 Vision만 있는 경우 상대적으로 성능 저하
  2. 64 프레임 제한
    • 다른 모델은 100~128 프레임 사용 → 긴 비디오에서 프레임 수 제한은 성능 저하 요인
  3. 추론 시간이 비교적 김
    • Query-based weighting, 여러 모달리티 처리 등으로 인해 latency 증가 가능성 있음
  4. 학습비용 높음
    • Mistral-7B + BEATs + Whisper + CLIP 등 고사양 구성

✨ 정리

항목요약
접근 이유 인간처럼 multimodal 정보를 기반으로 시간적 맥락을 이해하고 싶음
접근 방법 Vision, Audio, Speech를 query 기반으로 동적으로 결합하는 MLLM 구조
핵심 구성 Query-Based Connector + LLM (Mistral) + TriSense-2M 대규모 dataset
주요 장점 다양한 모달리티 조합 대응 가능, 쿼리에 따라 유연하게 modality 선택
대표 성능 SOTA 달성 (AVS/VS/AV 기준 Moment Retrieval & Captioning 모두)
한계점 Visual-only 성능 낮음, 프레임 수 제한으로 long-video 성능은 다소 저하 가능
728x90