일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- REST
- 밑바닥부터 시작하는 딥러닝
- streamlit
- 개발환경
- N-Queen
- 실버
- 신경망 학습
- end to end
- 15649
- 가상환경
- 백준
- 백트래킹
- 재귀
- Python
- 파이썬
- 1002
- BOJ
- 4948
- 오블완
- 티스토리챌린지
- 기계학습
- 손실함수
- pyenv
- 그리디 알고리즘
- 9020
- n과 m
- 경사하강법
- 1101
- 파이싼
- REST API
- Today
- Total
목록분류 전체보기 (217)
파이톨치

QVHIGHLIGHTS: Detecting Moments and Highlights in Videos via Natural Language Queries요약사용자 자연어(NL) 질의에 따라 영상에서 맞춤형 순간(moment)이나 하이라이트를 탐지하는 것은 중요한 과제지만, 아직 충분히 연구되지 않은 분야이다. 이러한 문제를 해결하기 위해 저자들은 QVHIGHLIGHTS라는 데이터셋을 제안한다.이 데이터셋은 1만 개 이상의 YouTube 영상으로 구성되어 있으며, 일상 브이로그, 여행, 뉴스 등 다양한 주제를 포함한다. 각 영상은 다음과 같은 주석(annotation)을 포함한다:사람이 작성한 자유 형식의 자연어 질의질의에 해당하는 영상 내 관련 순간들질의와 관련된 클립들에 대한 5점 척도 중요도 점수이러..
GMEUMR(Universal Multimodal Retrieval)은 텍스트, 이미지, 혹은 이 둘의 조합과 같은 다양한 모달리티를 하나의 통합된 모델로 검색할 수 있도록 하는 것을 목표로 한다. 즉, 쿼리와 검색 대상이 서로 다른 형식(예: 텍스트 ↔ 이미지)일 수 있는 범용 멀티모달 검색 시스템을 지향한다.문제점 및 기존 연구 한계이전 연구들은 멀티모달 대형 언어 모델(MLLM)을 활용하여 텍스트 기반 학습만으로 UMR을 구현(instruction tuning을 말하는건가?)하려고 했지만, 실험 결과, 더 다양한 멀티모달 학습 데이터가 모델 성능을 더 크게 끌어올릴 수 있다는 것이 확인되었다. 하지만 현재 이용 가능한 멀티모달 학습 데이터는 모달리티 간 불균형이 심해, 효과적인 학습에 제약이 있었다..

INTERNVIDEO2요약InternVideo2는 최신 비디오 인식, 영상-텍스트 작업, 비디오 중심 대화(task)에서 최고 성능을 달성한 비디오 기반 기반 모델(Video Foundation Model, ViFM)입니다.✅ 핵심 구성점진적인 학습 전략 사용:Masked Video Modeling (비디오 마스킹 학습)Cross-modal Contrastive Learning (비디오-텍스트 간 대조 학습)Next Token Prediction (다음 토큰 예측)→ 이 세 가지를 통합하여 학습함.모델 크기: 최대 60억(6B) 파라미터로 확장됨.데이터 수준의 전략:비디오를 의미적으로 분할(semantic segmentation)비디오 + 오디오 + 음성 정보를 기반으로 자막 생성→ 이를 통해 비디오와 ..

1. VideoLLaMA 2 Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs최근 인공지능(AI) 분야는 이미지 인식과 생성 기술의 획기적인 발전을 이루며, 의료 영상 분석과 자율 주행과 같은 다양한 산업에서 중요한 역할을 하고 있습니다. 특히 이미지 대형 언어 모델(Image-LLMs)은 정적 이미지 처리에서 강력한 성능을 보이며 인간 수준의 인식 능력에 도달하고 있습니다. 그러나 비디오 이해 및 생성(Video Understanding & Generation) 분야는 상대적으로 초기 단계에 머물러 있습니다. 비디오는 정적인 이미지와 달리 시간적 변화(Temporal Dynamics)와 동기화된 오디오 스트림(Synchr..

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation 비디오-텍스트 표현 학습은 자율주행🚗, 지능형 감시 시스템🎥, 인간-컴퓨터 상호작용💬, 비주얼 검색🔍 등 다양한 실제 응용 분야에서 필수적이지만, 기존 연구에서는 이미지-텍스트 대비 상대적으로 덜 탐색되었습니다.그 핵심 이유는 대규모 학습을 위한 고품질 비디오-언어 데이터셋 부족입니다. 기존 데이터셋(HowTo100M, HD-VILA, YT-Temporal 등)은 자동 음성 인식(ASR)을 활용하여 생성되었으나, 비디오와 텍스트 간 의미적 일치도가 낮은 문제가 존재했습니다. 이를 해결하기 위해 WebVid10M이 도입되었지만, 데이터 규모(1..

1. Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs✅ 멀티모달 대형 언어 모델(MLLMs)의 발전과 한계최근 MLLMs(Multimodal Large Language Models)는 빠르게 발전하며 이미지 이해, VQA(Visual Question Answering), 명령 수행 등에서 뛰어난 성능을 보이고 있다. 특히 GPT-4V(ision)의 등장은 MLLM의 성능을 새로운 수준으로 끌어올렸다. 하지만 MLLMs에는 여전히 시각적 한계가 존재하며, 일부는 매우 기초적인 문제이기도 하다. 이 문제의 원인은 시각적 표현 부족인가? 언어 이해의 한계인가? 아니면 둘 사이의 정렬(alignment) 문제인가? 이 연구는 MLLMs의..

Cambrian-1은 시각 중심 접근 방식으로 설계된 멀티모달 대형 언어 모델(MLLM) 패밀리이다. 일반적으로 강력한 언어 모델이 멀티모달 성능을 향상시킬 수 있지만, 시각적 구성 요소의 설계는 충분히 연구되지 않았으며, 기존 시각 표현 학습 연구와 단절되어 있다. 이러한 격차는 실제 환경에서의 정확한 감각적 연결(sensory grounding)을 저해하는 요인으로 작용한다. 본 연구에서는 LLM과 시각 명령어 튜닝(Visual Instruction Tuning)을 인터페이스로 활용하여, 자가 지도 학습(Self-Supervised), 강력한 지도 학습(Strongly Supervised), 또는 이들의 조합을 포함한 다양한 시각 표현 학습 모델을 평가한다. 20개 이상의 시각 인코더를 실험적으로 분..

1. LLaVA (Visual Instruction Tuning)기계 생성된 명령 수행 데이터를 사용한 대형 언어 모델(LLM)의 명령 튜닝(instruction tuning)은 새로운 작업에 대한 제로샷(zero-shot) 성능을 향상시키는 것으로 알려져 있다. 하지만, 다중모달(multimodal) 분야에서는 아직 연구가 부족하다. 이에 우리는 GPT-4를 활용하여 다중모달(언어-이미지) 명령 수행 데이터를 생성하는 첫 번째 시도를 소개한다.연구의 주요 기여본 논문에서는 시각 명령 튜닝(Visual Instruction-Tuning)이라는 개념을 도입하여, 기존의 명령 튜닝을 언어-이미지 다중모달 영역으로 확장하는 첫 번째 시도를 제시한다. 주요 기여는 다음과 같다.다중모달 명령 수행 데이터 구축비전..