일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 백트래킹
- 1002
- 밑바닥부터 시작하는 딥러닝
- 파이썬
- Retrieval
- 9020
- 개발환경
- 경사하강법
- 손실함수
- N-Queen
- 15649
- 기계학습
- 재귀
- 4948
- 1101
- 오블완
- n과 m
- pyenv
- BOJ
- video retireval
- streamlit
- 티스토리챌린지
- 파이싼
- 백준
- end to end
- 가상환경
- 그리디 알고리즘
- Python
- 신경망 학습
- REST API
- Today
- Total
목록2025/04/30 (4)
파이톨치

VIDEOTREE는 long-form video reasoning을 위한 training-free 프레임워크로, 긴 영상에서 redundant information과 query-irrelevant content 문제를 해결하고자 합니다. 주요 특징은 query-adaptive하고 hierarchical video representation을 구축하여 **Large Language Models (LLMs)**로 영상에 대한 효과적인 추론을 수행하는 것입니다.주요 개념과 접근 방식:Query-Adaptive Video Representation:Query-relevant keyframes를 동적으로 추출하는 iterative process를 사용.영상에서 관련 없는 정보를 줄여 redundancy를 최소화하..

Motivation (동기):이 연구는 기존의 비디오 이해 모델들이 visual-only 또는 coarse-grained 작업에 한정되어 있다는 한계를 극복하고자 하였습니다. 실제 영상에는 vision, audio, speech 정보가 복합적으로 존재하며, 이들을 종합적으로 처리해야만 진정한 비디오 이해가 가능합니다. 하지만 기존 데이터셋은 이런 복합적인 정보를 포함하는 fine-grained temporal annotations이 부족했습니다. LongVALE는 이런 문제를 해결하기 위해 다양한 omni-modal(시각, 음성, 언어) 정보를 포함하는 데이터셋을 제안합니다.Methodology (방법론):Data Collection and Filtering (데이터 수집 및 필터링):다양한 플랫폼에서 ..

논문 "SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis"는 긴 영상 콘텐츠를 이해하는 문제를 다룹니다. 기존의 대형 멀티모달 모델(LMMs)은 긴 영상에서 중요한 정보를 놓치거나 처리하는 데 어려움을 겪고 있기 때문에, 이 논문에서는 SALOVA라는 새로운 접근 방식을 제시합니다. SALOVA는 long-form video에서 중요한 세그먼트를 targeted retrieval하여 처리하는 방식으로 contextual relevance를 향상시키고자 합니다.왜 이 방식인가?긴 영상에서의 문제: 현재의 LMM들은 context length에 제한이 있어 한 번..

ReWind는 긴 비디오를 효율적으로 이해하면서 시간적 일관성을 유지할 수 있도록 설계된 메모리 기반 비전-언어 모델(VLM)입니다. 주요 내용은 다음과 같습니다.Motivation (동기)ReWind의 주된 동기는 긴 비디오를 처리하는 기존 비전-언어 모델(VLMs)의 한계를 극복하는 것입니다. 기존 모델들은 다음과 같은 문제를 겪습니다:계산 비효율성: 긴 비디오는 self-attention 메커니즘이 토큰 수에 따라 제곱 비례로 메모리를 요구하여 처리에 비효율적입니다.메모리 제한: 긴 비디오는 많은 시각적 정보를 담고 있어 중요한 세부 정보를 장기적으로 기억하고 호출하는 데 어려움이 있습니다.시간적 이해 부족: 긴 비디오에서 일관된 시간적 이해를 유지하는 데 어려움이 있습니다.ReWind는 동적 학습..