파이톨치

Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution 본문

카테고리 없음

Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution

파이톨치 2025. 4. 11. 12:56
728x90

Qwen2-VL 시리즈 소개

Qwen2-VL 시리즈는 기존 Qwen-VL 모델을 한층 발전시킨 차세대 비전-언어 통합 모델입니다. 이 모델은 기존의 고정 해상도 방식에서 벗어나, Naive Dynamic Resolution(동적 해상도 처리) 메커니즘을 도입하여 다양한 해상도의 이미지를 동적으로 처리하고, 그에 따라 시각 토큰의 수를 조절합니다. 이를 통해 더욱 효율적이고 정밀한 시각 표현이 가능하며, 인간의 지각 방식과도 유사한 처리 방식을 구현합니다.

또한, Qwen2-VL은 텍스트, 이미지, 비디오 간의 위치 정보를 효과적으로 융합할 수 있는 다중모달 회전 위치 임베딩(M-RoPE)을 통합하였으며, 이미지와 비디오를 통합된 방식으로 처리하여 시각 인식 능력을 크게 향상시켰습니다.

이 모델은 2B, 8B, 72B 파라미터 버전으로 확장 가능하며, 대규모 비전-언어 모델(LVLM)에 대한 스케일링 법칙도 함께 탐구합니다. 특히, Qwen2-VL-72B는 GPT-4o, Claude 3.5 Sonnet 등 최첨단 모델과 견줄 수 있는 성능을 다양한 멀티모달 벤치마크에서 입증하였고, 다른 범용 모델들을 능가하는 성과를 보였습니다.

코드는 GitHub에서 공개되어 있습니다: 🔗 https://github.com/QwenLM/Qwen2-VL

LVLM(대형 비전-언어 모델)의 발전과 Qwen2-VL 시리즈의 소개

최근 인공지능(AI) 분야에서 **대형 비전-언어 모델(LVLMs)**은 기존 대형 언어 모델(LLM)의 강력한 텍스트 처리 능력을 바탕으로 이미지, 오디오, 비디오 등 다양한 형태의 데이터를 함께 처리할 수 있게 되며 큰 도약을 이루고 있습니다. 이를 통해 LVLM은 현실 세계의 복잡한 문제를 해결하는 데 핵심적인 도구로 자리잡고 있습니다.

 

🔍 LVLM의 핵심 특징

  • 텍스트와 이미지, 영상 등 다양한 데이터를 융합하여 인간처럼 세상을 인식하고 반응할 수 있도록 설계됨
  • 복잡한 정보도 기능적인 표현으로 압축하여 처리 가능
  • 최근에는 더욱 높은 해상도 이미지, 대형 모델 구조, 전문가 집단(MoE), 모델 앙상블 기법 등이 성능 향상에 크게 기여함

⚠️ 기존 LVLM의 한계점

  • 대부분 고정 해상도 입력 방식을 사용 (예: 224×224), 이는 고해상도 이미지의 세부 정보를 잃게 함
  • 주로 CLIP 스타일의 고정된 비전 인코더에 의존 → 복잡한 추론이나 세부 정보 처리에 한계
  • 영상 데이터는 별개의 모달리티로 취급되며, 시공간적 흐름을 잘 반영하지 못함
  • 대부분 1D 위치 임베딩을 사용하여 3차원 공간과 시간적 변화를 효과적으로 모델링하지 못함

🧠 Qwen2-VL 시리즈의 주요 개선 사항

Qwen 시리즈의 최신 모델인 Qwen2-VL 시리즈는 이러한 한계를 극복하기 위해 다음과 같은 핵심 기술을 도입하였습니다:

  1. 동적 해상도 학습(Dynamic Resolution Training)
    다양한 해상도의 이미지를 효율적으로 처리할 수 있도록 비전 트랜스포머(ViT)에 2D RoPE(회전 위치 임베딩)을 적용.
  2. M-RoPE (다중모달 회전 위치 임베딩)
    영상처럼 시공간적 특징이 있는 데이터를 잘 이해하도록, 공간 정보와 시간 정보를 분리하여 표현할 수 있는 포지셔널 임베딩 방식 도입.
  3. 통합 멀티모달 학습
    이미지와 영상 모두를 동일한 구조로 학습, 실제 환경에 가까운 시각적 이해 능력 확보.
  4. 모델 확장성과 다양성
    총 *3가지 규모(2B, 8B, 72B 파라미터)의 오픈 모델 공개 → 대형 모델의 스케일링 법칙에 대한 실험 가능.

 

💡 Qwen2-VL의 특징 및 성과

  • ✅ 다양한 해상도와 비율에 강한 시각 이해 능력 확보 (예: DocVQA, InfoVQA, RealWorldQA 등에서 최상위 성능)
  • 20분 이상의 긴 영상도 이해할 수 있어, 영상 기반 QA, 대화, 콘텐츠 생성까지 가능
  • 기기 조작을 위한 에이전트 기능 탑재 – 로봇, 스마트폰 등에서 시각+텍스트 기반 자율 동작 가능
  • 다국어 지원 – 영어와 중국어 외에도 한국어, 일본어, 아랍어, 베트남어, 유럽 주요 언어들까지 이미지 내 텍스트 이해 가능

 

 

 

728x90