INTERNVIDEO2: SCALING FOUNDATION MODELS FORMULTIMODAL VIDEO UNDERSTANDING

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

파이톨치

INTERNVIDEO2: SCALING FOUNDATION MODELS FORMULTIMODAL VIDEO UNDERSTANDING 본문

논문

INTERNVIDEO2: SCALING FOUNDATION MODELS FORMULTIMODAL VIDEO UNDERSTANDING

파이톨치 2025. 4. 7. 14:53

728x90

INTERNVIDEO2

요약

InternVideo2는 최신 비디오 인식, 영상-텍스트 작업, 비디오 중심 대화(task)에서 최고 성능을 달성한 비디오 기반 기반 모델(Video Foundation Model, ViFM)입니다.

✅ 핵심 구성

점진적인 학습 전략 사용:
- Masked Video Modeling (비디오 마스킹 학습)
- Cross-modal Contrastive Learning (비디오-텍스트 간 대조 학습)
- Next Token Prediction (다음 토큰 예측)
- → 이 세 가지를 통합하여 학습함.
- 모델 크기: 최대 60억(6B) 파라미터로 확장됨.
데이터 수준의 전략:
- 비디오를 의미적으로 분할(semantic segmentation)
- 비디오 + 오디오 + 음성 정보를 기반으로 자막 생성
- → 이를 통해 비디오와 텍스트 간의 정렬을 더 정교하게 함
성과:
- 60개 이상의 비디오 및 오디오 관련 태스크에서 우수한 성능
- 특히 비디오 대화(task)와 긴 비디오 이해(long-video understanding)에서도 경쟁 모델들을 압도

InternVideo2 학습 방법

Video Encoder (비디오 인코더)

Vision Transformer (ViT) 기반 구조 사용
추가 투사(projection) 레이어를 포함하여 지식 증류를 반영
기존 연구에서 영감을 얻어 attention pooling 기법을 도입함

입력 처리 방식:

비디오에서 프레임 8개를 간격적으로 추출 (sparse sampling)
각 프레임은 14×14 크기로 다운샘플링
생성된 시공간 토큰들을 클래스 토큰과 함께 3D 위치 임베딩과 결합

Stage 1. Reconstructing Unmasked Video Tokens

InternVideo2는 전문가 모델 2개의 도움을 받아, 마스킹되지 않은 영역의 비디오 토큰을 복원하도록 학습.

InternVL-6B (멀티모달 의미 정보 제공)
VideoMAEv2-g (움직임 정보 제공)

이 두 모델은 각각 의미 기반과 모션 기반의 전문가로서, 학생 모델(InternVideo2)이 잘 학습할 수 있도록 지식 전달을 해줍니다.

학습 방식 요약

입력 비디오 전체를 교사 모델들에 전달
프레임별로 80%의 토큰을 마스킹
마스킹되지 않은 20%의 토큰에 대해서만 정렬
정렬 방식: MSE(평균 제곱 오차)를 줄이는 방향으로 학습
목표는: 교사 모델이 생성한 토큰과 학생 모델이 만든 토큰의 차이를 최소화하는 것

추가 정렬 방법

InternVideo2의 비디오 인코더는 랜덤 초기화된 상태에서 아래와 같은 정렬을 수행함:

InternVL의 마지막 6개 레이어 출력
VideoMAEv2의 마지막 4개 레이어 출력
InternVL의 최종 클래스 토큰

이 정렬은 각각 learnable MLP projection layer를 거쳐 L2 노름 기반 오차로 최적화됩니다.

Stage 2. Aligning Video to Audio-Speech-Text

사용되는 인코더 구성

비디오 인코더	InternVideo2의 핵심. 매우 큰 규모 (ViT 기반)
오디오 인코더	BEATs 기반의 12-layer Transformer (약 90M 파라미터)
텍스트 인코더	BERT-Large의 전반 19개 레이어 사용
멀티모달 디코더	BERT-Large의 후반 5개 레이어에 크로스어텐션 추가하여 사용

학습 Loss

LCON: 모달 간 대조 학습 손실 (contrastive loss)
LMAC: 비디오-텍스트 일치 여부 분류 손실 (matching loss)
LMLM: 마스킹된 텍스트 복원 손실 (masked language modeling)

1단계: 마스킹된 시각-오디오-텍스트 정렬

오디오 인코더는 고정(freeze)
다양한 조합으로 멀티모달 정렬 수행:

조합 형태설명

{I, TI}	이미지와 그 텍스트
{V, TV}	비디오와 그 캡션
{V, TVAS}	비디오 + 오디오 → 텍스트 설명
{VA, TVAS}	비디오+오디오 입력, 텍스트 설명과 정렬

2단계: 언마스킹 상태로 정렬 (Post-pretraining)

비디오 인코더를 고정(freeze)
전체 데이터를 사용하지 않고 소규모 데이터셋으로 훈련 (예: 이미지/비디오 2,500만, 오디오 50만)
이 단계에서는 마스킹 없이 학습하여 실제 추론과 일관성 유지

조합 형태설명

{I, TI}, {V, TV}, {A, TA}	단일 모달리티 정렬 포함
{V, TVAS}, {VA, TVA}	멀티모달 정렬도 계속 활용

Stage 3. Predicting Next Token with Video-Centric Inputs

구성 요소 및 전략

Q-Former 아키텍처 기반 연결

QFormer: 이미지/비디오 입력을 LLM과 연결하기 위한 중간 모듈
기존 연구 [Li et al., 2022a,b]의 설계를 따름

진행 방식

InternVideo2는 비디오 인코더로 사용
Video-BLIP 구조를 기반으로 오픈소스 LLM과 통신 가능하도록 학습
- 오픈소스 LLM 예: Zheng et al. (2023), Jiang et al. (2023) 등

728x90

저작자표시 (새창열림)

'논문' 카테고리의 다른 글

InternVL 2.5: Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling (0)	2025.04.11
SmolVLM: Redefining small and efficientmultimodal models (0)	2025.04.09
VideoLLaMA Series (0)	2025.04.02
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation (0)	2025.04.02
Visual Shortcomings of Multimodal LLMs (0)	2025.04.02

'논문' Related Articles

파이톨치

INTERNVIDEO2: SCALING FOUNDATION MODELS FORMULTIMODAL VIDEO UNDERSTANDING 본문

INTERNVIDEO2: SCALING FOUNDATION MODELS FORMULTIMODAL VIDEO UNDERSTANDING

INTERNVIDEO2

요약

InternVideo2 학습 방법

Stage 1. Reconstructing Unmasked Video Tokens

Stage 2. Aligning Video to Audio-Speech-Text

Stage 3. Predicting Next Token with Video-Centric Inputs

'논문' 카테고리의 다른 글

티스토리툴바