파이톨치

INTERNVIDEO2: SCALING FOUNDATION MODELS FORMULTIMODAL VIDEO UNDERSTANDING 본문

논문

INTERNVIDEO2: SCALING FOUNDATION MODELS FORMULTIMODAL VIDEO UNDERSTANDING

파이톨치 2025. 4. 7. 14:53
728x90

INTERNVIDEO2

요약

InternVideo2는 최신 비디오 인식, 영상-텍스트 작업, 비디오 중심 대화(task)에서 최고 성능을 달성한 비디오 기반 기반 모델(Video Foundation Model, ViFM)입니다.

✅ 핵심 구성

  1. 점진적인 학습 전략 사용:
    • Masked Video Modeling (비디오 마스킹 학습)
    • Cross-modal Contrastive Learning (비디오-텍스트 간 대조 학습)
    • Next Token Prediction (다음 토큰 예측)
    • → 이 세 가지를 통합하여 학습함.
    • 모델 크기: 최대 60억(6B) 파라미터로 확장됨.
  2. 데이터 수준의 전략:
    • 비디오를 의미적으로 분할(semantic segmentation)
    • 비디오 + 오디오 + 음성 정보를 기반으로 자막 생성
    • → 이를 통해 비디오와 텍스트 간의 정렬을 더 정교하게 함
  3. 성과:
    • 60개 이상의 비디오 및 오디오 관련 태스크에서 우수한 성능
    • 특히 비디오 대화(task)와 긴 비디오 이해(long-video understanding)에서도 경쟁 모델들을 압도

InternVideo2 학습 방법

 

Video Encoder (비디오 인코더)

  • Vision Transformer (ViT) 기반 구조 사용
  • 추가 투사(projection) 레이어를 포함하여 지식 증류를 반영
  • 기존 연구에서 영감을 얻어 attention pooling 기법을 도입함

입력 처리 방식:

  • 비디오에서 프레임 8개를 간격적으로 추출 (sparse sampling)
  • 각 프레임은 14×14 크기로 다운샘플링
  • 생성된 시공간 토큰들을 클래스 토큰과 함께 3D 위치 임베딩과 결합

Stage 1. Reconstructing Unmasked Video Tokens

InternVideo2는 전문가 모델 2개의 도움을 받아, 마스킹되지 않은 영역의 비디오 토큰을 복원하도록 학습.

  • InternVL-6B (멀티모달 의미 정보 제공)
  • VideoMAEv2-g (움직임 정보 제공)

이 두 모델은 각각 의미 기반모션 기반의 전문가로서, 학생 모델(InternVideo2)이 잘 학습할 수 있도록 지식 전달을 해줍니다.

 

학습 방식 요약

  • 입력 비디오 전체를 교사 모델들에 전달
  • 프레임별로 80%의 토큰을 마스킹
  • 마스킹되지 않은 20%의 토큰에 대해서만 정렬
  • 정렬 방식: MSE(평균 제곱 오차)를 줄이는 방향으로 학습
  • 목표는: 교사 모델이 생성한 토큰과 학생 모델이 만든 토큰의 차이를 최소화하는 것

추가 정렬 방법

InternVideo2의 비디오 인코더는 랜덤 초기화된 상태에서 아래와 같은 정렬을 수행함:

  1. InternVL의 마지막 6개 레이어 출력
  2. VideoMAEv2의 마지막 4개 레이어 출력
  3. InternVL의 최종 클래스 토큰

이 정렬은 각각 learnable MLP projection layer를 거쳐 L2 노름 기반 오차로 최적화됩니다.

 

Stage 2. Aligning Video to Audio-Speech-Text

사용되는 인코더 구성

비디오 인코더 InternVideo2의 핵심. 매우 큰 규모 (ViT 기반)
오디오 인코더 BEATs 기반의 12-layer Transformer (약 90M 파라미터)
텍스트 인코더 BERT-Large의 전반 19개 레이어 사용
멀티모달 디코더 BERT-Large의 후반 5개 레이어에 크로스어텐션 추가하여 사용

학습 Loss

 

  • LCON: 모달 간 대조 학습 손실 (contrastive loss)
  • LMAC: 비디오-텍스트 일치 여부 분류 손실 (matching loss)
  • LMLM: 마스킹된 텍스트 복원 손실 (masked language modeling)

1단계: 마스킹된 시각-오디오-텍스트 정렬

  • 오디오 인코더는 고정(freeze)
  • 다양한 조합으로 멀티모달 정렬 수행:
조합 형태설명
{I, TI} 이미지와 그 텍스트
{V, TV} 비디오와 그 캡션
{V, TVAS} 비디오 + 오디오 → 텍스트 설명
{VA, TVAS} 비디오+오디오 입력, 텍스트 설명과 정렬

 

2단계: 언마스킹 상태로 정렬 (Post-pretraining)

  • 비디오 인코더를 고정(freeze)
  • 전체 데이터를 사용하지 않고 소규모 데이터셋으로 훈련 (예: 이미지/비디오 2,500만, 오디오 50만)
  • 이 단계에서는 마스킹 없이 학습하여 실제 추론과 일관성 유지
조합 형태설명
{I, TI}, {V, TV}, {A, TA} 단일 모달리티 정렬 포함
{V, TVAS}, {VA, TVA} 멀티모달 정렬도 계속 활용

Stage 3. Predicting Next Token with Video-Centric Inputs

구성 요소 및 전략

Q-Former 아키텍처 기반 연결

  • QFormer: 이미지/비디오 입력을 LLM과 연결하기 위한 중간 모듈
  • 기존 연구 [Li et al., 2022a,b]의 설계를 따름

진행 방식

  • InternVideo2는 비디오 인코더로 사용
  • Video-BLIP 구조를 기반으로 오픈소스 LLM과 통신 가능하도록 학습
    • 오픈소스 LLM 예: Zheng et al. (2023), Jiang et al. (2023)
728x90