파이톨치

InternVL 2.5: Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling 본문

논문

InternVL 2.5: Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling

파이톨치 2025. 4. 11. 16:07
728x90

Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling

InternVL 2.5 소개

InternVL 2.5는 InternVL 2.0을 기반으로 한 고급 멀티모달 대형 언어 모델(MLLM) 시리즈로, 핵심 아키텍처는 유지하면서 학습 및 테스트 전략, 데이터 품질 측면에서 주요한 개선이 이루어졌습니다.

 

이번 연구에서는 모델 확장(scale-up)과 성능 간의 관계를 탐구하며, 비전 인코더, 언어 모델, 데이터셋 크기, 테스트 구성(test-time configuration) 등에 대한 성능 트렌드를 체계적으로 분석합니다.

InternVL 2.5는 다음과 같은 다양한 벤치마크에서 폭넓게 평가되었으며, 매우 경쟁력 있는 성능을 보여주었습니다. 

 

InternVL 2.5는 GPT-4o, Claude-3.5-Sonnet과 같은 주요 상용 모델들과 견줄 만한 성능을 보이며, 특히 오픈소스 MLLM 중 최초로 MMMU 벤치마크에서 70%를 초과한 성과를 달성했습니다. Chain-of-Thought(COT) 추론 기법을 통해 3.7포인트 향상을 이루었으며, 테스트 단계에서의 확장 가능성(test-time scaling)에서도 강력한 가능성을 보여주고 있습니다.

 

📌 배경

최근 몇 년 사이, **멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)**은 인공지능 분야의 핵심 기술로 떠올랐습니다. 이들은 텍스트, 이미지, 비디오 등 여러 형태의 정보를 동시에 이해하고 처리할 수 있으며, 자연어 처리, 컴퓨터 비전, 인간-컴퓨터 상호작용 등 다양한 분야에서 혁신을 약속하고 있습니다.

그러나 대규모 MLLM 개발은 다음과 같은 이유로 여전히 도전적입니다:

  • 막대한 연산 자원 필요
  • 복잡한 아키텍처 설계
  • 다양한 데이터 타입을 통합하는 확장 가능한 방식 요구

이를 해결하기 위해 다양한 시도가 있어왔습니다:

  • 모델 구조 개선
  • 비전 인코더와 언어 모델의 확장
  • 더 다양하고 고품질의 데이터셋 활용
  • 테스트 시간 확장(test-time scaling)을 통한 성능 향상

GPT-4o, Claude-3.5-Sonnet 같은 상용 모델들은 뛰어난 성능을 보여주지만, 비공개 시스템이기 때문에 투명성과 접근성이 부족합니다. 반면, InternVL 및 Qwen-VL 시리즈와 같은 오픈소스 MLLM들은 투명성과 공개성을 제공하지만, 여전히 성능 및 효율성 측면에서 한계를 보이고 있습니다.

 

🚀 InternVL 2.5의 목표

InternVL 2.5는 InternVL 2.0의 아키텍처를 바탕으로 성능 격차를 줄이고자 하는 고급 오픈소스 MLLM입니다. 우리는 다음과 같은 요소들이 성능에 어떤 영향을 미치는지 체계적으로 분석했습니다:

  1. 비전 인코더, 언어 모델, 데이터셋 크기, 추론 시간의 변화
  2. 스케일링과 성능 간의 관계 탐색

🔍 주요 발견

 

  1. 대형 비전 인코더는 학습 데이터 의존도를 낮춘다
    • InternVL2.5-78B (6B 비전 인코더)는 Qwen2-VL-72B (600M 비전 인코더)보다 10분의 1 수준의 학습 토큰만으로 더 나은 성능을 발휘함 → 대규모 확장에서 탐색 비용 감소
  2. 데이터 품질이 성능을 좌우한다
    • InternVL 2.5는 InternVL 2.0 대비 데이터셋 크기를 2배로 늘리면서, 이상한 샘플(반복 패턴 등)을 필터링하여 CoT(Chain-of-Thought) 추론 성능이 크게 향상됨
    • 예: MMMU, OlympiadBench 등 복잡한 문제 해결에 유리
  3. 테스트 시점 스케일링(test-time scaling)은 어려운 멀티모달 QA에 효과적이다
    • CoT 적용 시, MMMU 벤치마크에서 70.1% 달성 (직접 응답 대비 3.7포인트 상승)
    • 다수결(Majority Voting) 기법과의 조합으로 추가 성능 향상 가능

전체 구조 (Overall Architecture)

  • InternVL 2.5는 이전 버전(InternVL 1.5, 2.0)과 동일하게 "ViT-MLP-LLM" 구조를 따릅니다.
  • 새로운 버전에서는 InternViT-6B 또는 InternViT-300M 비전 인코더를 다양한 **사전학습 언어 모델(LLM)**과 결합했습니다.
    • 예: InternLM 2.5, Qwen 2.5 등
  • 2층 MLP projector는 무작위 초기화되어 ViT와 LLM을 연결합니다.
  • 픽셀 언셔플(pixel unshuffle) 기법을 적용해 고해상도 이미지도 효율적으로 처리 가능:
    • 입력 이미지(448×448)는 256개의 시각 토큰으로 변환됨.
  • 이미지 전처리는 InternVL 1.5에서 사용한 동적 해상도 처리 방식을 유지:
    • 이미지 비율에 따라 448×448 타일로 분할
  • InternVL 2.0부터멀티 이미지와 비디오 입력도 지원하도록 확장됨.

  1.  
728x90