일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 손실함수
- 그리디 알고리즘
- 오블완
- 백준
- 가상환경
- 기계학습
- 티스토리챌린지
- streamlit
- N-Queen
- REST
- 1101
- 9020
- 실버
- 1002
- 4948
- n과 m
- 백트래킹
- 신경망 학습
- pyenv
- BOJ
- 재귀
- 경사하강법
- 15649
- REST API
- 파이싼
- 개발환경
- Python
- end to end
- 파이썬
- 밑바닥부터 시작하는 딥러닝
- Today
- Total
목록전체 글 (220)
파이톨치

Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling InternVL 2.5 소개InternVL 2.5는 InternVL 2.0을 기반으로 한 고급 멀티모달 대형 언어 모델(MLLM) 시리즈로, 핵심 아키텍처는 유지하면서 학습 및 테스트 전략, 데이터 품질 측면에서 주요한 개선이 이루어졌습니다. 이번 연구에서는 모델 확장(scale-up)과 성능 간의 관계를 탐구하며, 비전 인코더, 언어 모델, 데이터셋 크기, 테스트 구성(test-time configuration) 등에 대한 성능 트렌드를 체계적으로 분석합니다.InternVL 2.5는 다음과 같은 다양한 벤치마크에서 ..

Qwen2-VL 시리즈 소개Qwen2-VL 시리즈는 기존 Qwen-VL 모델을 한층 발전시킨 차세대 비전-언어 통합 모델입니다. 이 모델은 기존의 고정 해상도 방식에서 벗어나, Naive Dynamic Resolution(동적 해상도 처리) 메커니즘을 도입하여 다양한 해상도의 이미지를 동적으로 처리하고, 그에 따라 시각 토큰의 수를 조절합니다. 이를 통해 더욱 효율적이고 정밀한 시각 표현이 가능하며, 인간의 지각 방식과도 유사한 처리 방식을 구현합니다.또한, Qwen2-VL은 텍스트, 이미지, 비디오 간의 위치 정보를 효과적으로 융합할 수 있는 다중모달 회전 위치 임베딩(M-RoPE)을 통합하였으며, 이미지와 비디오를 통합된 방식으로 처리하여 시각 인식 능력을 크게 향상시켰습니다.이 모델은 2B, 8B,..

SmolVLM: Redefining small and efficient multimodal models요약대형 비전-언어 모델(VLM)은 뛰어난 성능을 보여주지만, 막대한 연산 자원이 필요하여 모바일이나 엣지 디바이스에 적용하기 어렵습니다. 일반적으로 소형 VLM도 대형 모델의 설계를 그대로 따라가기 때문에 이미지 토크나이징이 과도하게 이루어져 GPU 메모리 사용이 비효율적이며, 실사용에 제한이 많습니다. 이에 우리는 SmolVLM이라는 경량 멀티모달 모델 시리즈를 제안합니다. 이 모델들은 자원 효율적인 추론을 위해 특별히 설계되었습니다. 우리는 모델 구조, 토크나이징 전략, 데이터 큐레이션 방식을 체계적으로 탐구하여 낮은 연산 부담으로도 높은 성능을 낼 수 있는 핵심 설계 요소들을 도출하였습니다. 가장..

QVHIGHLIGHTS: Detecting Moments and Highlights in Videos via Natural Language Queries요약사용자 자연어(NL) 질의에 따라 영상에서 맞춤형 순간(moment)이나 하이라이트를 탐지하는 것은 중요한 과제지만, 아직 충분히 연구되지 않은 분야이다. 이러한 문제를 해결하기 위해 저자들은 QVHIGHLIGHTS라는 데이터셋을 제안한다.이 데이터셋은 1만 개 이상의 YouTube 영상으로 구성되어 있으며, 일상 브이로그, 여행, 뉴스 등 다양한 주제를 포함한다. 각 영상은 다음과 같은 주석(annotation)을 포함한다:사람이 작성한 자유 형식의 자연어 질의질의에 해당하는 영상 내 관련 순간들질의와 관련된 클립들에 대한 5점 척도 중요도 점수이러..
GMEUMR(Universal Multimodal Retrieval)은 텍스트, 이미지, 혹은 이 둘의 조합과 같은 다양한 모달리티를 하나의 통합된 모델로 검색할 수 있도록 하는 것을 목표로 한다. 즉, 쿼리와 검색 대상이 서로 다른 형식(예: 텍스트 ↔ 이미지)일 수 있는 범용 멀티모달 검색 시스템을 지향한다.문제점 및 기존 연구 한계이전 연구들은 멀티모달 대형 언어 모델(MLLM)을 활용하여 텍스트 기반 학습만으로 UMR을 구현(instruction tuning을 말하는건가?)하려고 했지만, 실험 결과, 더 다양한 멀티모달 학습 데이터가 모델 성능을 더 크게 끌어올릴 수 있다는 것이 확인되었다. 하지만 현재 이용 가능한 멀티모달 학습 데이터는 모달리티 간 불균형이 심해, 효과적인 학습에 제약이 있었다..

INTERNVIDEO2요약InternVideo2는 최신 비디오 인식, 영상-텍스트 작업, 비디오 중심 대화(task)에서 최고 성능을 달성한 비디오 기반 기반 모델(Video Foundation Model, ViFM)입니다.✅ 핵심 구성점진적인 학습 전략 사용:Masked Video Modeling (비디오 마스킹 학습)Cross-modal Contrastive Learning (비디오-텍스트 간 대조 학습)Next Token Prediction (다음 토큰 예측)→ 이 세 가지를 통합하여 학습함.모델 크기: 최대 60억(6B) 파라미터로 확장됨.데이터 수준의 전략:비디오를 의미적으로 분할(semantic segmentation)비디오 + 오디오 + 음성 정보를 기반으로 자막 생성→ 이를 통해 비디오와 ..

1. VideoLLaMA 2 Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs최근 인공지능(AI) 분야는 이미지 인식과 생성 기술의 획기적인 발전을 이루며, 의료 영상 분석과 자율 주행과 같은 다양한 산업에서 중요한 역할을 하고 있습니다. 특히 이미지 대형 언어 모델(Image-LLMs)은 정적 이미지 처리에서 강력한 성능을 보이며 인간 수준의 인식 능력에 도달하고 있습니다. 그러나 비디오 이해 및 생성(Video Understanding & Generation) 분야는 상대적으로 초기 단계에 머물러 있습니다. 비디오는 정적인 이미지와 달리 시간적 변화(Temporal Dynamics)와 동기화된 오디오 스트림(Synchr..

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation 비디오-텍스트 표현 학습은 자율주행🚗, 지능형 감시 시스템🎥, 인간-컴퓨터 상호작용💬, 비주얼 검색🔍 등 다양한 실제 응용 분야에서 필수적이지만, 기존 연구에서는 이미지-텍스트 대비 상대적으로 덜 탐색되었습니다.그 핵심 이유는 대규모 학습을 위한 고품질 비디오-언어 데이터셋 부족입니다. 기존 데이터셋(HowTo100M, HD-VILA, YT-Temporal 등)은 자동 음성 인식(ASR)을 활용하여 생성되었으나, 비디오와 텍스트 간 의미적 일치도가 낮은 문제가 존재했습니다. 이를 해결하기 위해 WebVid10M이 도입되었지만, 데이터 규모(1..