일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 1101
- 기계학습
- streamlit
- 파이썬
- 9020
- 파이싼
- Python
- 4948
- 티스토리챌린지
- 경사하강법
- REST API
- REST
- 신경망 학습
- 오블완
- 개발환경
- 그리디 알고리즘
- BOJ
- n과 m
- 15649
- pyenv
- 재귀
- 가상환경
- 백트래킹
- 손실함수
- 밑바닥부터 시작하는 딥러닝
- N-Queen
- 1002
- 실버
- end to end
- 백준
- Today
- Total
목록2025/04/11 (2)
파이톨치

Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling InternVL 2.5 소개InternVL 2.5는 InternVL 2.0을 기반으로 한 고급 멀티모달 대형 언어 모델(MLLM) 시리즈로, 핵심 아키텍처는 유지하면서 학습 및 테스트 전략, 데이터 품질 측면에서 주요한 개선이 이루어졌습니다. 이번 연구에서는 모델 확장(scale-up)과 성능 간의 관계를 탐구하며, 비전 인코더, 언어 모델, 데이터셋 크기, 테스트 구성(test-time configuration) 등에 대한 성능 트렌드를 체계적으로 분석합니다.InternVL 2.5는 다음과 같은 다양한 벤치마크에서 ..

Qwen2-VL 시리즈 소개Qwen2-VL 시리즈는 기존 Qwen-VL 모델을 한층 발전시킨 차세대 비전-언어 통합 모델입니다. 이 모델은 기존의 고정 해상도 방식에서 벗어나, Naive Dynamic Resolution(동적 해상도 처리) 메커니즘을 도입하여 다양한 해상도의 이미지를 동적으로 처리하고, 그에 따라 시각 토큰의 수를 조절합니다. 이를 통해 더욱 효율적이고 정밀한 시각 표현이 가능하며, 인간의 지각 방식과도 유사한 처리 방식을 구현합니다.또한, Qwen2-VL은 텍스트, 이미지, 비디오 간의 위치 정보를 효과적으로 융합할 수 있는 다중모달 회전 위치 임베딩(M-RoPE)을 통합하였으며, 이미지와 비디오를 통합된 방식으로 처리하여 시각 인식 능력을 크게 향상시켰습니다.이 모델은 2B, 8B,..