일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 파이싼
- 티스토리챌린지
- 기계학습
- Python
- Retrieval
- 백준
- 가상환경
- pyenv
- n과 m
- 15649
- 재귀
- BOJ
- 그리디 알고리즘
- video retireval
- 밑바닥부터 시작하는 딥러닝
- 개발환경
- 오블완
- 신경망 학습
- 9020
- 1101
- 1002
- 손실함수
- 경사하강법
- 파이썬
- 백트래킹
- 4948
- streamlit
- REST API
- end to end
- N-Queen
- Today
- Total
목록2025/04/25 (4)
파이톨치

# MSR-VTT Motivation (동기)컴퓨터 비전 분야에서 영상 내용을 자연어로 설명하는 작업에 대한 관심이 증가하고 있지만, 현재의 컴퓨터 비전 알고리즘은 영상의 다양성과 복잡성, 그리고 그에 대응하는 언어를 인식하는 데 여전히 많은 한계를 가지고 있습니다. 기존의 벤치마크들은 대부분 특정 도메인에 국한되거나 작은 데이터셋과 간단한 설명에 집중하고 있어, 다양한 영상 콘텐츠에 대해서는 성능이 떨어집니다.MSR-VTT 데이터셋은 이러한 한계를 해결하기 위해 가장 크고 다양한 영상 설명 데이터셋을 제공합니다. 이 데이터셋은 10,000개의 웹 영상 클립과 200,000개의 클립-문장 쌍을 포함하고 있으며, 20개의 다양한 카테고리를 다룹니다. 특히 이 데이터셋은 영상에서 텍스트로의 번역 작업을 지원..

Motivation (동기)이 연구의 동기는 Universal Multimodal Retrieval (UMR) 시스템을 구축하는 데 있습니다. 기존의 UMR 시스템은 텍스트, 이미지, 그리고 텍스트와 이미지의 조합과 같은 다양한 입력 모달리티를 처리할 수 있어야 합니다. 하지만 기존의 UMR 모델들은 융합된 모달리티(fused-modal) 데이터의 부족으로 성능에 제한을 겪고 있습니다. 융합된 모달리티 데이터는 텍스트와 이미지가 결합된 형태로, 실제 응용에서 많이 필요하지만 훈련 데이터에서 적게 사용되고 있습니다. 이 문제를 해결하기 위해, 저자들은 General Multimodal Embedder (GME) 모델을 제안합니다. 이 모델은 Multimodal Large Language Models (ML..

# Motivation 최근에는 대규모 비디오 데이터베이스에서 텍스트 기반 검색을 통해 중요한 정보를 추출하는 연구가 활발히 진행되고 있다. 기존의 연구들은 주로 비디오 검색, 순간 검색, 비디오 요약, 그리고 비디오 캡션 생성 등의 작업을 각각 독립적으로 다루었으며, 각각의 작업에 대해 별도의 모델을 개발했다. 하지만 이러한 접근 방식은 현실적인 응용에서의 통합적인 정보 검색 및 요약을 제공하는데 한계가 있다.따라서, 본 연구에서는 HIREST라는 새로운 데이터셋을 소개하고, 비디오 검색, 순간 검색, 순간 세분화, 그리고 단계별 캡션 생성의 네 가지 작업을 통합적으로 처리할 수 있는 새로운 벤치마크를 제시한다. 이를 통해 텍스트 기반 검색을 사용하여 관련 비디오를 찾아내고, 해당 비디오에서 중요한 순..

Motivation최근 인터넷에서 비디오 콘텐츠의 급증으로 인해 비디오에서 유용한 정보를 추출하는 방식에 대한 개선이 필요해졌습니다. 기존의 비디오 검색 모델들은 주어진 텍스트 쿼리에 대해 전체 비디오를 반환하는 경우가 많지만, 사용자가 원하는 특정 순간만을 찾아주는 방식에는 한계가 있습니다. 예를 들어, '딸기 파이를 만드는 방법'을 배우고 싶은 사용자는 전체 비디오가 아니라 딸기 파이를 만드는 순간만을 원할 수 있습니다. 이 문제를 해결하기 위해 HIREST라는 새로운 연구 주제가 등장했습니다. HIREST는 비디오 검색, 순간 검색, 순간 분할, 그리고 단계 캡셔닝이라는 네 가지 작업을 포함하며, 이 연구의 목표는 사용자 쿼리에 맞는 순간을 정확히 검색하고 세분화하는 것입니다. 이전에는 CLIP 기..