'2025/05/19 글 목록

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록2025/05/19 (1)

파이톨치

RAVU (Retrieval Augmented Video Understanding

논문 RAVU (Retrieval Augmented Video Understanding)는 기존 멀티모달 모델들이 긴 영상에서 복잡한 질의를 이해하는 데 한계가 있다는 점에서 출발합니다. 이 논문은 영상의 구조적 메모리(graph)를 만들고, **그 위에서 질의에 따라 단계적으로 추론(compositional reasoning)**을 수행해 답을 찾는 방식을 제안합니다.🔍 왜 이렇게 접근했는가? (문제의식)문제 1: LMM은 긴 영상에 약함영상은 길고, 프레임 수는 많으며, LMM은 입력 토큰 수에 제한이 있음.예: 1시간 영상이면 수십만 개의 비주얼 토큰이 필요 → 불가능.문제 2: 기존 접근은 “질의에 직접 맞는 프레임”만 찾음유사도 기반으로 중요한 장면을 찾지만, “이 사람이 이 행동을 한 다음에..

논문 2025. 5. 19. 21:16

이전 Prev 1 Next 다음

목록2025/05/19 (1)

파이톨치

티스토리툴바