일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 밑바닥부터 시작하는 딥러닝
- 티스토리챌린지
- REST
- 15649
- 실버
- 개발환경
- 백트래킹
- Python
- 4948
- 9020
- 기계학습
- 그리디 알고리즘
- REST API
- 파이싼
- pyenv
- 파이썬
- N-Queen
- BOJ
- 경사하강법
- n과 m
- 손실함수
- 백준
- 재귀
- 가상환경
- 1101
- end to end
- 1002
- 오블완
- 신경망 학습
- streamlit
- Today
- Total
목록논문 (8)
파이톨치

Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling InternVL 2.5 소개InternVL 2.5는 InternVL 2.0을 기반으로 한 고급 멀티모달 대형 언어 모델(MLLM) 시리즈로, 핵심 아키텍처는 유지하면서 학습 및 테스트 전략, 데이터 품질 측면에서 주요한 개선이 이루어졌습니다. 이번 연구에서는 모델 확장(scale-up)과 성능 간의 관계를 탐구하며, 비전 인코더, 언어 모델, 데이터셋 크기, 테스트 구성(test-time configuration) 등에 대한 성능 트렌드를 체계적으로 분석합니다.InternVL 2.5는 다음과 같은 다양한 벤치마크에서 ..

SmolVLM: Redefining small and efficient multimodal models요약대형 비전-언어 모델(VLM)은 뛰어난 성능을 보여주지만, 막대한 연산 자원이 필요하여 모바일이나 엣지 디바이스에 적용하기 어렵습니다. 일반적으로 소형 VLM도 대형 모델의 설계를 그대로 따라가기 때문에 이미지 토크나이징이 과도하게 이루어져 GPU 메모리 사용이 비효율적이며, 실사용에 제한이 많습니다. 이에 우리는 SmolVLM이라는 경량 멀티모달 모델 시리즈를 제안합니다. 이 모델들은 자원 효율적인 추론을 위해 특별히 설계되었습니다. 우리는 모델 구조, 토크나이징 전략, 데이터 큐레이션 방식을 체계적으로 탐구하여 낮은 연산 부담으로도 높은 성능을 낼 수 있는 핵심 설계 요소들을 도출하였습니다. 가장..

INTERNVIDEO2요약InternVideo2는 최신 비디오 인식, 영상-텍스트 작업, 비디오 중심 대화(task)에서 최고 성능을 달성한 비디오 기반 기반 모델(Video Foundation Model, ViFM)입니다.✅ 핵심 구성점진적인 학습 전략 사용:Masked Video Modeling (비디오 마스킹 학습)Cross-modal Contrastive Learning (비디오-텍스트 간 대조 학습)Next Token Prediction (다음 토큰 예측)→ 이 세 가지를 통합하여 학습함.모델 크기: 최대 60억(6B) 파라미터로 확장됨.데이터 수준의 전략:비디오를 의미적으로 분할(semantic segmentation)비디오 + 오디오 + 음성 정보를 기반으로 자막 생성→ 이를 통해 비디오와 ..

1. VideoLLaMA 2 Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs최근 인공지능(AI) 분야는 이미지 인식과 생성 기술의 획기적인 발전을 이루며, 의료 영상 분석과 자율 주행과 같은 다양한 산업에서 중요한 역할을 하고 있습니다. 특히 이미지 대형 언어 모델(Image-LLMs)은 정적 이미지 처리에서 강력한 성능을 보이며 인간 수준의 인식 능력에 도달하고 있습니다. 그러나 비디오 이해 및 생성(Video Understanding & Generation) 분야는 상대적으로 초기 단계에 머물러 있습니다. 비디오는 정적인 이미지와 달리 시간적 변화(Temporal Dynamics)와 동기화된 오디오 스트림(Synchr..

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation 비디오-텍스트 표현 학습은 자율주행🚗, 지능형 감시 시스템🎥, 인간-컴퓨터 상호작용💬, 비주얼 검색🔍 등 다양한 실제 응용 분야에서 필수적이지만, 기존 연구에서는 이미지-텍스트 대비 상대적으로 덜 탐색되었습니다.그 핵심 이유는 대규모 학습을 위한 고품질 비디오-언어 데이터셋 부족입니다. 기존 데이터셋(HowTo100M, HD-VILA, YT-Temporal 등)은 자동 음성 인식(ASR)을 활용하여 생성되었으나, 비디오와 텍스트 간 의미적 일치도가 낮은 문제가 존재했습니다. 이를 해결하기 위해 WebVid10M이 도입되었지만, 데이터 규모(1..

1. Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs✅ 멀티모달 대형 언어 모델(MLLMs)의 발전과 한계최근 MLLMs(Multimodal Large Language Models)는 빠르게 발전하며 이미지 이해, VQA(Visual Question Answering), 명령 수행 등에서 뛰어난 성능을 보이고 있다. 특히 GPT-4V(ision)의 등장은 MLLM의 성능을 새로운 수준으로 끌어올렸다. 하지만 MLLMs에는 여전히 시각적 한계가 존재하며, 일부는 매우 기초적인 문제이기도 하다. 이 문제의 원인은 시각적 표현 부족인가? 언어 이해의 한계인가? 아니면 둘 사이의 정렬(alignment) 문제인가? 이 연구는 MLLMs의..

Cambrian-1은 시각 중심 접근 방식으로 설계된 멀티모달 대형 언어 모델(MLLM) 패밀리이다. 일반적으로 강력한 언어 모델이 멀티모달 성능을 향상시킬 수 있지만, 시각적 구성 요소의 설계는 충분히 연구되지 않았으며, 기존 시각 표현 학습 연구와 단절되어 있다. 이러한 격차는 실제 환경에서의 정확한 감각적 연결(sensory grounding)을 저해하는 요인으로 작용한다. 본 연구에서는 LLM과 시각 명령어 튜닝(Visual Instruction Tuning)을 인터페이스로 활용하여, 자가 지도 학습(Self-Supervised), 강력한 지도 학습(Strongly Supervised), 또는 이들의 조합을 포함한 다양한 시각 표현 학습 모델을 평가한다. 20개 이상의 시각 인코더를 실험적으로 분..

1. LLaVA (Visual Instruction Tuning)기계 생성된 명령 수행 데이터를 사용한 대형 언어 모델(LLM)의 명령 튜닝(instruction tuning)은 새로운 작업에 대한 제로샷(zero-shot) 성능을 향상시키는 것으로 알려져 있다. 하지만, 다중모달(multimodal) 분야에서는 아직 연구가 부족하다. 이에 우리는 GPT-4를 활용하여 다중모달(언어-이미지) 명령 수행 데이터를 생성하는 첫 번째 시도를 소개한다.연구의 주요 기여본 논문에서는 시각 명령 튜닝(Visual Instruction-Tuning)이라는 개념을 도입하여, 기존의 명령 튜닝을 언어-이미지 다중모달 영역으로 확장하는 첫 번째 시도를 제시한다. 주요 기여는 다음과 같다.다중모달 명령 수행 데이터 구축비전..