250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- streamlit
- 신경망 학습
- 파이싼
- 재귀
- end to end
- 1101
- 가상환경
- 그리디 알고리즘
- 개발환경
- 백트래킹
- n과 m
- BOJ
- 오블완
- Retrieval
- 15649
- 티스토리챌린지
- pyenv
- 백준
- REST API
- 1002
- 기계학습
- N-Queen
- 파이썬
- 경사하강법
- video retireval
- 4948
- 밑바닥부터 시작하는 딥러닝
- 9020
- 손실함수
- Python
Archives
- Today
- Total
파이톨치
INTERNVIDEO2: SCALING FOUNDATION MODELS FORMULTIMODAL VIDEO UNDERSTANDING 본문
728x90
INTERNVIDEO2
요약
InternVideo2는 최신 비디오 인식, 영상-텍스트 작업, 비디오 중심 대화(task)에서 최고 성능을 달성한 비디오 기반 기반 모델(Video Foundation Model, ViFM)입니다.
✅ 핵심 구성
- 점진적인 학습 전략 사용:
- Masked Video Modeling (비디오 마스킹 학습)
- Cross-modal Contrastive Learning (비디오-텍스트 간 대조 학습)
- Next Token Prediction (다음 토큰 예측)
- → 이 세 가지를 통합하여 학습함.
- 모델 크기: 최대 60억(6B) 파라미터로 확장됨.
- 데이터 수준의 전략:
- 비디오를 의미적으로 분할(semantic segmentation)
- 비디오 + 오디오 + 음성 정보를 기반으로 자막 생성
- → 이를 통해 비디오와 텍스트 간의 정렬을 더 정교하게 함
- 성과:
- 60개 이상의 비디오 및 오디오 관련 태스크에서 우수한 성능
- 특히 비디오 대화(task)와 긴 비디오 이해(long-video understanding)에서도 경쟁 모델들을 압도
InternVideo2 학습 방법
Video Encoder (비디오 인코더)
- Vision Transformer (ViT) 기반 구조 사용
- 추가 투사(projection) 레이어를 포함하여 지식 증류를 반영
- 기존 연구에서 영감을 얻어 attention pooling 기법을 도입함
입력 처리 방식:
- 비디오에서 프레임 8개를 간격적으로 추출 (sparse sampling)
- 각 프레임은 14×14 크기로 다운샘플링
- 생성된 시공간 토큰들을 클래스 토큰과 함께 3D 위치 임베딩과 결합
Stage 1. Reconstructing Unmasked Video Tokens
InternVideo2는 전문가 모델 2개의 도움을 받아, 마스킹되지 않은 영역의 비디오 토큰을 복원하도록 학습.
- InternVL-6B (멀티모달 의미 정보 제공)
- VideoMAEv2-g (움직임 정보 제공)
이 두 모델은 각각 의미 기반과 모션 기반의 전문가로서, 학생 모델(InternVideo2)이 잘 학습할 수 있도록 지식 전달을 해줍니다.
학습 방식 요약
- 입력 비디오 전체를 교사 모델들에 전달
- 프레임별로 80%의 토큰을 마스킹
- 마스킹되지 않은 20%의 토큰에 대해서만 정렬
- 정렬 방식: MSE(평균 제곱 오차)를 줄이는 방향으로 학습
- 목표는: 교사 모델이 생성한 토큰과 학생 모델이 만든 토큰의 차이를 최소화하는 것
추가 정렬 방법
InternVideo2의 비디오 인코더는 랜덤 초기화된 상태에서 아래와 같은 정렬을 수행함:
- InternVL의 마지막 6개 레이어 출력
- VideoMAEv2의 마지막 4개 레이어 출력
- InternVL의 최종 클래스 토큰
이 정렬은 각각 learnable MLP projection layer를 거쳐 L2 노름 기반 오차로 최적화됩니다.
Stage 2. Aligning Video to Audio-Speech-Text
사용되는 인코더 구성
비디오 인코더 | InternVideo2의 핵심. 매우 큰 규모 (ViT 기반) |
오디오 인코더 | BEATs 기반의 12-layer Transformer (약 90M 파라미터) |
텍스트 인코더 | BERT-Large의 전반 19개 레이어 사용 |
멀티모달 디코더 | BERT-Large의 후반 5개 레이어에 크로스어텐션 추가하여 사용 |
학습 Loss
- LCON: 모달 간 대조 학습 손실 (contrastive loss)
- LMAC: 비디오-텍스트 일치 여부 분류 손실 (matching loss)
- LMLM: 마스킹된 텍스트 복원 손실 (masked language modeling)
1단계: 마스킹된 시각-오디오-텍스트 정렬
- 오디오 인코더는 고정(freeze)
- 다양한 조합으로 멀티모달 정렬 수행:
조합 형태설명
{I, TI} | 이미지와 그 텍스트 |
{V, TV} | 비디오와 그 캡션 |
{V, TVAS} | 비디오 + 오디오 → 텍스트 설명 |
{VA, TVAS} | 비디오+오디오 입력, 텍스트 설명과 정렬 |
2단계: 언마스킹 상태로 정렬 (Post-pretraining)
- 비디오 인코더를 고정(freeze)
- 전체 데이터를 사용하지 않고 소규모 데이터셋으로 훈련 (예: 이미지/비디오 2,500만, 오디오 50만)
- 이 단계에서는 마스킹 없이 학습하여 실제 추론과 일관성 유지
조합 형태설명
{I, TI}, {V, TV}, {A, TA} | 단일 모달리티 정렬 포함 |
{V, TVAS}, {VA, TVA} | 멀티모달 정렬도 계속 활용 |
Stage 3. Predicting Next Token with Video-Centric Inputs
구성 요소 및 전략
Q-Former 아키텍처 기반 연결
- QFormer: 이미지/비디오 입력을 LLM과 연결하기 위한 중간 모듈
- 기존 연구 [Li et al., 2022a,b]의 설계를 따름
진행 방식
- InternVideo2는 비디오 인코더로 사용
- Video-BLIP 구조를 기반으로 오픈소스 LLM과 통신 가능하도록 학습
- 오픈소스 LLM 예: Zheng et al. (2023), Jiang et al. (2023) 등
728x90