일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 신경망 학습
- 1101
- REST API
- 파이싼
- 그리디 알고리즘
- 백준
- REST
- Python
- 백트래킹
- 9020
- BOJ
- pyenv
- N-Queen
- 4948
- streamlit
- 파이썬
- end to end
- 티스토리챌린지
- 가상환경
- 손실함수
- n과 m
- 1002
- 재귀
- 개발환경
- 오블완
- 경사하강법
- 15649
- 실버
- 기계학습
- 밑바닥부터 시작하는 딥러닝
- Today
- Total
파이톨치
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation 본문
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation
파이톨치 2025. 4. 2. 19:31InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation
비디오-텍스트 표현 학습은 자율주행🚗, 지능형 감시 시스템🎥, 인간-컴퓨터 상호작용💬, 비주얼 검색🔍 등 다양한 실제 응용 분야에서 필수적이지만, 기존 연구에서는 이미지-텍스트 대비 상대적으로 덜 탐색되었습니다.
그 핵심 이유는 대규모 학습을 위한 고품질 비디오-언어 데이터셋 부족입니다. 기존 데이터셋(HowTo100M, HD-VILA, YT-Temporal 등)은 자동 음성 인식(ASR)을 활용하여 생성되었으나, 비디오와 텍스트 간 의미적 일치도가 낮은 문제가 존재했습니다. 이를 해결하기 위해 WebVid10M이 도입되었지만, 데이터 규모(1천만 개)와 다이내믹한 장면 부족으로 한계가 있었습니다.
📌 InternVid 데이터셋: 더 크고 더 정밀한 비디오-텍스트 학습 데이터
InternVid는 비디오-언어 모델의 확장성과 정확도를 동시에 해결하기 위해 개발된 대규모 비디오 중심 데이터셋입니다.
- 🎥 7백만 개 이상의 비디오
- ⏳ 총 76만 시간(760K hours)
- 🎞️ 2억 3천 4백만(234M) 개의 비디오 클립
- 📝 16개 주요 시나리오, 6천 개의 액션 설명 포함
- 🔄 멀티스케일 캡션 생성 방식
- 🖼️ 거친 단위(Coarse Scale): 비디오 중간 프레임에 대한 캡션 생성
- 🎞️ 정밀 단위(Fine Scale): 프레임별 캡션을 생성하고 LLM을 활용해 요약
이를 통해 비디오-텍스트 일치도를 극대화하여 검색, 질의응답, 대화 시스템 등의 성능을 향상시킵니다.
🛠️ ViCLIP: ViT-L을 활용한 새로운 비디오-텍스트 모델
ViCLIP은 InternVid 데이터셋을 활용하여 학습된 비디오-텍스트 표현 모델로, 강력한 대조 학습(Contrastive Learning) 및 마스크 모델링 기법을 적용하여 효율적인 학습이 가능하도록 설계되었습니다.
✅ Zero-shot 액션 인식에서 최고 성능
✅ 비디오 검색(Video Retrieval)에서 경쟁력 있는 성능 달성
✅ 새로운 비디오-텍스트 이해 모델의 기준 제시
특히 기존 Video CLIP 변형 모델 대비 Zero-shot 설정에서 탁월한 성능 향상을 보여줍니다.
📌 응용 분야: 멀티모달 시스템 및 생성 모델 발전
InternVid와 ViCLIP은 단순한 비디오 검색을 넘어 다양한 멀티모달 연구에 활용 가능합니다.
✅ 비디오 기반 대화 시스템 학습
- 📽️ Flamingo 같은 비디오-텍스트 기반 AI 모델 개발 가능
- ⏳ 시간적 이해 및 추론 능력 강화
✅ 비디오 생성(Text-to-Video)
- 🎬 InternVid-Aesthetics 서브셋 활용
- ✅ 고해상도, 워터마크 없는 비디오 생성 가능
- FVD(Fréchet Video Distance) 개선: 705.3 → 616.5
✅ 새로운 비디오-언어 모델 확장 가능
- 🔄 InternVid-기반 확장 모델과 결합하여 성능 개선 가능
🎯 결론: InternVid와 ViCLIP이 가져올 변화
InternVid는 웹 스케일 비디오-텍스트 데이터셋으로, 비디오 중심 멀티모달 학습 및 생성 모델의 새로운 기준을 제시합니다.
💡 핵심 기여
1️⃣ 고품질 비디오-텍스트 데이터셋
- 7M 비디오, 234M 클립, 16개 시나리오, 6K 액션
- 멀티스케일 캡션 생성 기법 적용
2️⃣ 비디오-언어 모델 ViCLIP 개발
- 대조 학습 및 마스크 모델링 적용
- Kinetics Zero-shot 액션 인식에서 최고 성능 달성
3️⃣ 비디오 중심 AI 발전 기여
- 비디오 대화 시스템 🗣️
- 비디오 생성 연구 발전 🎞️
- 새로운 비디오-텍스트 모델 학습 가능 📚
'논문' 카테고리의 다른 글
INTERNVIDEO2: SCALING FOUNDATION MODELS FORMULTIMODAL VIDEO UNDERSTANDING (0) | 2025.04.07 |
---|---|
VideoLLaMA Series (0) | 2025.04.02 |
Visual Shortcomings of Multimodal LLMs (0) | 2025.04.02 |
Cambrian-1: A Fully Open, Vision-CentricExploration of Multimodal LLMs (0) | 2025.04.02 |
[Paper review] LLaVA Series (2) | 2025.04.01 |