'2025/04/30 글 목록

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록2025/04/30 (4)

파이톨치

VIDEOTREE: Adaptive Tree-based Video Representationfor LLM Reasoning on Long Videos

VIDEOTREE는 long-form video reasoning을 위한 training-free 프레임워크로, 긴 영상에서 redundant information과 query-irrelevant content 문제를 해결하고자 합니다. 주요 특징은 query-adaptive하고 hierarchical video representation을 구축하여 **Large Language Models (LLMs)**로 영상에 대한 효과적인 추론을 수행하는 것입니다.주요 개념과 접근 방식:Query-Adaptive Video Representation:Query-relevant keyframes를 동적으로 추출하는 iterative process를 사용.영상에서 관련 없는 정보를 줄여 redundancy를 최소화하..

논문 2025. 4. 30. 18:35

LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos

Motivation (동기):이 연구는 기존의 비디오 이해 모델들이 visual-only 또는 coarse-grained 작업에 한정되어 있다는 한계를 극복하고자 하였습니다. 실제 영상에는 vision, audio, speech 정보가 복합적으로 존재하며, 이들을 종합적으로 처리해야만 진정한 비디오 이해가 가능합니다. 하지만 기존 데이터셋은 이런 복합적인 정보를 포함하는 fine-grained temporal annotations이 부족했습니다. LongVALE는 이런 문제를 해결하기 위해 다양한 omni-modal(시각, 음성, 언어) 정보를 포함하는 데이터셋을 제안합니다.Methodology (방법론):Data Collection and Filtering (데이터 수집 및 필터링):다양한 플랫폼에서 ..

논문 2025. 4. 30. 17:12

SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

논문 "SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis"는 긴 영상 콘텐츠를 이해하는 문제를 다룹니다. 기존의 대형 멀티모달 모델(LMMs)은 긴 영상에서 중요한 정보를 놓치거나 처리하는 데 어려움을 겪고 있기 때문에, 이 논문에서는 SALOVA라는 새로운 접근 방식을 제시합니다. SALOVA는 long-form video에서 중요한 세그먼트를 targeted retrieval하여 처리하는 방식으로 contextual relevance를 향상시키고자 합니다.왜 이 방식인가?긴 영상에서의 문제: 현재의 LMM들은 context length에 제한이 있어 한 번..

논문 2025. 4. 30. 16:42

ReWind: Understanding Long Videos with Instructed Learnable Memory

ReWind는 긴 비디오를 효율적으로 이해하면서 시간적 일관성을 유지할 수 있도록 설계된 메모리 기반 비전-언어 모델(VLM)입니다. 주요 내용은 다음과 같습니다.Motivation (동기)ReWind의 주된 동기는 긴 비디오를 처리하는 기존 비전-언어 모델(VLMs)의 한계를 극복하는 것입니다. 기존 모델들은 다음과 같은 문제를 겪습니다:계산 비효율성: 긴 비디오는 self-attention 메커니즘이 토큰 수에 따라 제곱 비례로 메모리를 요구하여 처리에 비효율적입니다.메모리 제한: 긴 비디오는 많은 시각적 정보를 담고 있어 중요한 세부 정보를 장기적으로 기억하고 호출하는 데 어려움이 있습니다.시간적 이해 부족: 긴 비디오에서 일관된 시간적 이해를 유지하는 데 어려움이 있습니다.ReWind는 동적 학습..

논문 2025. 4. 30. 16:25

이전 Prev 1 Next 다음

목록2025/04/30 (4)

파이톨치

티스토리툴바