InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

파이톨치

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation 본문

논문

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

파이톨치 2025. 4. 2. 19:31

728x90

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

비디오-텍스트 표현 학습은 자율주행🚗, 지능형 감시 시스템🎥, 인간-컴퓨터 상호작용💬, 비주얼 검색🔍 등 다양한 실제 응용 분야에서 필수적이지만, 기존 연구에서는 이미지-텍스트 대비 상대적으로 덜 탐색되었습니다.

그 핵심 이유는 대규모 학습을 위한 고품질 비디오-언어 데이터셋 부족입니다. 기존 데이터셋(HowTo100M, HD-VILA, YT-Temporal 등)은 자동 음성 인식(ASR)을 활용하여 생성되었으나, 비디오와 텍스트 간 의미적 일치도가 낮은 문제가 존재했습니다. 이를 해결하기 위해 WebVid10M이 도입되었지만, 데이터 규모(1천만 개)와 다이내믹한 장면 부족으로 한계가 있었습니다.

📌 InternVid 데이터셋: 더 크고 더 정밀한 비디오-텍스트 학습 데이터

InternVid는 비디오-언어 모델의 확장성과 정확도를 동시에 해결하기 위해 개발된 대규모 비디오 중심 데이터셋입니다.

🎥 7백만 개 이상의 비디오
⏳ 총 76만 시간(760K hours)
🎞️ 2억 3천 4백만(234M) 개의 비디오 클립
📝 16개 주요 시나리오, 6천 개의 액션 설명 포함
🔄 멀티스케일 캡션 생성 방식
- 🖼️ 거친 단위(Coarse Scale): 비디오 중간 프레임에 대한 캡션 생성
- 🎞️ 정밀 단위(Fine Scale): 프레임별 캡션을 생성하고 LLM을 활용해 요약

이를 통해 비디오-텍스트 일치도를 극대화하여 검색, 질의응답, 대화 시스템 등의 성능을 향상시킵니다.

🛠️ ViCLIP: ViT-L을 활용한 새로운 비디오-텍스트 모델

ViCLIP은 InternVid 데이터셋을 활용하여 학습된 비디오-텍스트 표현 모델로, 강력한 대조 학습(Contrastive Learning) 및 마스크 모델링 기법을 적용하여 효율적인 학습이 가능하도록 설계되었습니다.

✅ Zero-shot 액션 인식에서 최고 성능

✅ 비디오 검색(Video Retrieval)에서 경쟁력 있는 성능 달성

✅ 새로운 비디오-텍스트 이해 모델의 기준 제시

특히 기존 Video CLIP 변형 모델 대비 Zero-shot 설정에서 탁월한 성능 향상을 보여줍니다.

📌 응용 분야: 멀티모달 시스템 및 생성 모델 발전

InternVid와 ViCLIP은 단순한 비디오 검색을 넘어 다양한 멀티모달 연구에 활용 가능합니다.

✅ 비디오 기반 대화 시스템 학습

📽️ Flamingo 같은 비디오-텍스트 기반 AI 모델 개발 가능
⏳ 시간적 이해 및 추론 능력 강화

✅ 비디오 생성(Text-to-Video)

🎬 InternVid-Aesthetics 서브셋 활용
✅ 고해상도, 워터마크 없는 비디오 생성 가능
FVD(Fréchet Video Distance) 개선: 705.3 → 616.5

✅ 새로운 비디오-언어 모델 확장 가능

🔄 InternVid-기반 확장 모델과 결합하여 성능 개선 가능

🎯 결론: InternVid와 ViCLIP이 가져올 변화

InternVid는 웹 스케일 비디오-텍스트 데이터셋으로, 비디오 중심 멀티모달 학습 및 생성 모델의 새로운 기준을 제시합니다.

💡 핵심 기여
1️⃣ 고품질 비디오-텍스트 데이터셋

7M 비디오, 234M 클립, 16개 시나리오, 6K 액션
멀티스케일 캡션 생성 기법 적용

2️⃣ 비디오-언어 모델 ViCLIP 개발

대조 학습 및 마스크 모델링 적용
Kinetics Zero-shot 액션 인식에서 최고 성능 달성

3️⃣ 비디오 중심 AI 발전 기여

비디오 대화 시스템 🗣️
비디오 생성 연구 발전 🎞️
새로운 비디오-텍스트 모델 학습 가능 📚

728x90

저작자표시

'논문' 카테고리의 다른 글

INTERNVIDEO2: SCALING FOUNDATION MODELS FORMULTIMODAL VIDEO UNDERSTANDING (0)	2025.04.07
VideoLLaMA Series (0)	2025.04.02
Visual Shortcomings of Multimodal LLMs (0)	2025.04.02
Cambrian-1: A Fully Open, Vision-CentricExploration of Multimodal LLMs (0)	2025.04.02
[Paper review] LLaVA Series (2)	2025.04.01

'논문' Related Articles

파이톨치

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation 본문

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

📌 InternVid 데이터셋: 더 크고 더 정밀한 비디오-텍스트 학습 데이터

🛠️ ViCLIP: ViT-L을 활용한 새로운 비디오-텍스트 모델

📌 응용 분야: 멀티모달 시스템 및 생성 모델 발전

🎯 결론: InternVid와 ViCLIP이 가져올 변화

'논문' 카테고리의 다른 글

티스토리툴바