일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- end to end
- 15649
- 손실함수
- 신경망 학습
- 재귀
- 티스토리챌린지
- 1101
- 개발환경
- 밑바닥부터 시작하는 딥러닝
- REST API
- 백준
- 9020
- 그리디 알고리즘
- 4948
- Python
- 파이싼
- 1002
- 백트래킹
- REST
- 오블완
- BOJ
- 경사하강법
- n과 m
- 기계학습
- streamlit
- pyenv
- 파이썬
- 실버
- N-Queen
- 가상환경
- Today
- Total
목록2025/04/02 (4)
파이톨치

1. VideoLLaMA 2 Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs최근 인공지능(AI) 분야는 이미지 인식과 생성 기술의 획기적인 발전을 이루며, 의료 영상 분석과 자율 주행과 같은 다양한 산업에서 중요한 역할을 하고 있습니다. 특히 이미지 대형 언어 모델(Image-LLMs)은 정적 이미지 처리에서 강력한 성능을 보이며 인간 수준의 인식 능력에 도달하고 있습니다. 그러나 비디오 이해 및 생성(Video Understanding & Generation) 분야는 상대적으로 초기 단계에 머물러 있습니다. 비디오는 정적인 이미지와 달리 시간적 변화(Temporal Dynamics)와 동기화된 오디오 스트림(Synchr..

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation 비디오-텍스트 표현 학습은 자율주행🚗, 지능형 감시 시스템🎥, 인간-컴퓨터 상호작용💬, 비주얼 검색🔍 등 다양한 실제 응용 분야에서 필수적이지만, 기존 연구에서는 이미지-텍스트 대비 상대적으로 덜 탐색되었습니다.그 핵심 이유는 대규모 학습을 위한 고품질 비디오-언어 데이터셋 부족입니다. 기존 데이터셋(HowTo100M, HD-VILA, YT-Temporal 등)은 자동 음성 인식(ASR)을 활용하여 생성되었으나, 비디오와 텍스트 간 의미적 일치도가 낮은 문제가 존재했습니다. 이를 해결하기 위해 WebVid10M이 도입되었지만, 데이터 규모(1..

1. Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs✅ 멀티모달 대형 언어 모델(MLLMs)의 발전과 한계최근 MLLMs(Multimodal Large Language Models)는 빠르게 발전하며 이미지 이해, VQA(Visual Question Answering), 명령 수행 등에서 뛰어난 성능을 보이고 있다. 특히 GPT-4V(ision)의 등장은 MLLM의 성능을 새로운 수준으로 끌어올렸다. 하지만 MLLMs에는 여전히 시각적 한계가 존재하며, 일부는 매우 기초적인 문제이기도 하다. 이 문제의 원인은 시각적 표현 부족인가? 언어 이해의 한계인가? 아니면 둘 사이의 정렬(alignment) 문제인가? 이 연구는 MLLMs의..

Cambrian-1은 시각 중심 접근 방식으로 설계된 멀티모달 대형 언어 모델(MLLM) 패밀리이다. 일반적으로 강력한 언어 모델이 멀티모달 성능을 향상시킬 수 있지만, 시각적 구성 요소의 설계는 충분히 연구되지 않았으며, 기존 시각 표현 학습 연구와 단절되어 있다. 이러한 격차는 실제 환경에서의 정확한 감각적 연결(sensory grounding)을 저해하는 요인으로 작용한다. 본 연구에서는 LLM과 시각 명령어 튜닝(Visual Instruction Tuning)을 인터페이스로 활용하여, 자가 지도 학습(Self-Supervised), 강력한 지도 학습(Strongly Supervised), 또는 이들의 조합을 포함한 다양한 시각 표현 학습 모델을 평가한다. 20개 이상의 시각 인코더를 실험적으로 분..