파이톨치

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation 본문

논문

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

파이톨치 2025. 4. 2. 19:31
728x90

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

비디오-텍스트 표현 학습은 자율주행🚗, 지능형 감시 시스템🎥, 인간-컴퓨터 상호작용💬, 비주얼 검색🔍 등 다양한 실제 응용 분야에서 필수적이지만, 기존 연구에서는 이미지-텍스트 대비 상대적으로 덜 탐색되었습니다.

그 핵심 이유는 대규모 학습을 위한 고품질 비디오-언어 데이터셋 부족입니다. 기존 데이터셋(HowTo100M, HD-VILA, YT-Temporal 등)은 자동 음성 인식(ASR)을 활용하여 생성되었으나, 비디오와 텍스트 간 의미적 일치도가 낮은 문제가 존재했습니다. 이를 해결하기 위해 WebVid10M이 도입되었지만, 데이터 규모(1천만 개)와 다이내믹한 장면 부족으로 한계가 있었습니다.

📌 InternVid 데이터셋: 더 크고 더 정밀한 비디오-텍스트 학습 데이터

InternVid는 비디오-언어 모델의 확장성과 정확도를 동시에 해결하기 위해 개발된 대규모 비디오 중심 데이터셋입니다.

  • 🎥 7백만 개 이상의 비디오
  • 총 76만 시간(760K hours)
  • 🎞️ 2억 3천 4백만(234M) 개의 비디오 클립
  • 📝 16개 주요 시나리오, 6천 개의 액션 설명 포함
  • 🔄 멀티스케일 캡션 생성 방식
    • 🖼️ 거친 단위(Coarse Scale): 비디오 중간 프레임에 대한 캡션 생성
    • 🎞️ 정밀 단위(Fine Scale): 프레임별 캡션을 생성하고 LLM을 활용해 요약

이를 통해 비디오-텍스트 일치도를 극대화하여 검색, 질의응답, 대화 시스템 등의 성능을 향상시킵니다.

🛠️ ViCLIP: ViT-L을 활용한 새로운 비디오-텍스트 모델

ViCLIP은 InternVid 데이터셋을 활용하여 학습된 비디오-텍스트 표현 모델로, 강력한 대조 학습(Contrastive Learning) 및 마스크 모델링 기법을 적용하여 효율적인 학습이 가능하도록 설계되었습니다.

 

Zero-shot 액션 인식에서 최고 성능

비디오 검색(Video Retrieval)에서 경쟁력 있는 성능 달성

새로운 비디오-텍스트 이해 모델의 기준 제시

 

특히 기존 Video CLIP 변형 모델 대비 Zero-shot 설정에서 탁월한 성능 향상을 보여줍니다.

📌 응용 분야: 멀티모달 시스템 및 생성 모델 발전

InternVid와 ViCLIP은 단순한 비디오 검색을 넘어 다양한 멀티모달 연구에 활용 가능합니다.

비디오 기반 대화 시스템 학습

  • 📽️ Flamingo 같은 비디오-텍스트 기반 AI 모델 개발 가능
  • 시간적 이해 및 추론 능력 강화

비디오 생성(Text-to-Video)

  • 🎬 InternVid-Aesthetics 서브셋 활용
  • 고해상도, 워터마크 없는 비디오 생성 가능
  • FVD(Fréchet Video Distance) 개선: 705.3 → 616.5

새로운 비디오-언어 모델 확장 가능

  • 🔄 InternVid-기반 확장 모델과 결합하여 성능 개선 가능

🎯 결론: InternVid와 ViCLIP이 가져올 변화

InternVid는 웹 스케일 비디오-텍스트 데이터셋으로, 비디오 중심 멀티모달 학습 및 생성 모델의 새로운 기준을 제시합니다.

💡 핵심 기여
1️⃣ 고품질 비디오-텍스트 데이터셋

  • 7M 비디오, 234M 클립, 16개 시나리오, 6K 액션
  • 멀티스케일 캡션 생성 기법 적용

2️⃣ 비디오-언어 모델 ViCLIP 개발

  • 대조 학습 및 마스크 모델링 적용
  • Kinetics Zero-shot 액션 인식에서 최고 성능 달성

3️⃣ 비디오 중심 AI 발전 기여

  • 비디오 대화 시스템 🗣️
  • 비디오 생성 연구 발전 🎞️
  • 새로운 비디오-텍스트 모델 학습 가능 📚
728x90