일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- end to end
- n과 m
- BOJ
- pyenv
- 가상환경
- 밑바닥부터 시작하는 딥러닝
- 9020
- 재귀
- 파이싼
- 백준
- 15649
- 오블완
- Python
- 경사하강법
- 그리디 알고리즘
- 4948
- REST API
- 1002
- 1101
- streamlit
- 개발환경
- video retireval
- 신경망 학습
- 파이썬
- 기계학습
- 티스토리챌린지
- 백트래킹
- N-Queen
- 손실함수
- Retrieval
- Today
- Total
목록2025/04/26 (3)
파이톨치

Motivation (동기)최근 경향/문제점:비디오-텍스트 검색은 주어진 텍스트 쿼리로 관련 비디오를 검색하는 작업으로, 비디오 이해 및 멀티모달 정보 검색에서 중요한 분야입니다.기존의 방법들은 시각적 및 텍스트 정보를 주로 활용하며, 오디오 정보는 종종 무시됩니다. 오디오는 영상의 중요한 문맥을 제공할 수 있기 때문에 이를 활용하지 않으면 비디오 이해가 제한적입니다.많은 기존 모델들이 오디오를 무차별적으로 사용하여 도움이 되지 않는 오디오 신호까지 처리하여 비디오 표현 성능을 저하시킵니다.연구의 필요성:오디오 신호를 유용한 경우에만 선택적으로 활용하여 비디오-텍스트 검색 성능을 개선할 수 있는 방법이 필요합니다. 이 연구는 오디오를 더 효율적으로 활용하는 방법을 제안합니다.논문에서 인용:"Recent ..

1. Motivation (동기)최근의 경향과 문제점: 다양한 플랫폼에서 길고 잘라지지 않은 영상 콘텐츠가 점차 늘어나고 있지만, 현재의 비디오-언어 모델(VLM)은 긴 비디오 데이터를 처리하는 데 한계가 있습니다. 이러한 모델들은 입력 시퀀스로 처리할 수 있는 토큰 수가 제한되어 있어 긴 비디오에서 중요한 정보를 놓치거나 잘못된 응답을 생성하는 경우가 많습니다.연구의 필요성: 이 논문에서는 비디오의 길이가 길고 잘라지지 않은 비디오에 대해 효율적으로 이해할 수 있는 방법이 필요하다고 강조합니다. 기존 모델들은 비디오의 중요한 시각적, 맥락적 정보를 처리하는 데 어려움이 있으며, 이로 인해 길고 복잡한 비디오 분석에서 성능이 떨어지는 문제가 발생합니다.논문에서의 인용: "The importance of ..

Motivation최근 멀티모달 정보 검색 분야는 복잡한 검색 작업들이 등장하면서 급격히 발전했습니다. 예를 들어, 합성된 이미지 검색, 긴 텍스트-이미지 검색, 이미지/질문과 멀티모달 문서 검색 등의 작업들이 이에 해당합니다. 기존의 비전-언어 모델(VLM)은 이미지-텍스트 대비 학습을 통해 훈련되며 이러한 복잡한 작업들을 처리하는 데 어려움을 겪고 있습니다. 기존 방법들은 주로 작업에 특화된 파인튜닝에 의존하고 있는데, 이는 번거롭고 비효율적입니다. 또한, 이러한 모델들은 여러 검색 작업을 동시에 처리하는 데 한계가 있습니다. 이를 해결하기 위해, LamRA(대형 멀티모달 모델 검색 보조 시스템)가 제안되었습니다. LamRA는 모든 검색 작업을 동일한 형식으로 통합하여, 추가 학습 없이 다양한 검색 ..