일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 밑바닥부터 시작하는 딥러닝
- end to end
- 백트래킹
- 4948
- 9020
- 신경망 학습
- streamlit
- 파이싼
- BOJ
- 개발환경
- 15649
- Python
- 기계학습
- N-Queen
- video retireval
- 1002
- REST API
- 오블완
- 재귀
- 티스토리챌린지
- Retrieval
- 1101
- 파이썬
- n과 m
- 경사하강법
- 백준
- pyenv
- 가상환경
- 손실함수
- 그리디 알고리즘
- Today
- Total
목록2025/05/01 (3)
파이톨치

"TimeSearch: Hierarchical Video Search with Spotlight and Reflection for Human-like Long Video Understanding" 논문 요약1. 배경 및 동기기존 연구의 한계:Large Video-Language Models (LVLMs)는 짧은 비디오에서는 좋은 성과를 보였지만, 긴 비디오에서는 많은 프레임으로 인한 처리 문제로 어려움을 겪음.기존의 방법들은 downsampling, token pruning, memory banks 등을 사용하지만, 이는 temporal information loss와 visual hallucinations을 초래하여 긴 비디오를 정확히 이해하기 어렵게 만듦.Humans는 계층적인 event segmen..

1. 기존 연구의 한계기존의 축구 해설 생성 모델들은 대개 두 가지 주요 문제에 직면해 있습니다:시간적 로컬라이제이션의 문제: 많은 기존 모델들이 축구 경기를 여러 짧은 클립으로 나누어 각 클립에 대해 해설을 생성하는 두 단계 구조를 사용했습니다. 이 방식은 각 클립에 대한 캡션을 생성할 수 있지만, 전체 경기에서 일어나는 시간적 연결성을 충분히 반영하지 못합니다. 즉, 전체 영상의 흐름을 고려하지 않고 개별적인 세그먼트에서만 캡션을 생성하여 해설의 일관성이 부족하고 중요한 이벤트를 놓칠 가능성이 큽니다.두 단계 파이프라인: 기존 모델들은 두 단계로 나누어 (먼저 타임스탬프를 예측한 뒤, 그에 맞춰 캡션을 생성하는 방식) 처리하는 방식으로 제한적이었습니다. 이 방식은 각 클립에 대해 독립적으로 처리되기 ..

"TimeZero: Temporal Video Grounding with Reasoning-Guided LVLM" 논문 요약1. Introduction and Motivation (동기 및 소개) 이 논문은 Temporal Video Grounding (TVG) 문제를 다루고 있습니다. TVG는 주어진 textual query에 기반하여 long untrimmed video에서 관련된 temporal segment를 정확하게 찾는 작업입니다. 이 작업은 긴 영상에서 텍스트 쿼리와 관련된 작은 시간 구간만을 찾는 데 어려움이 있습니다.대형 vision-language models (LVLMs)가 영상 이해에서 좋은 성과를 보였지만, TVG tasks에서는 Supervised Fine-Tuning (SFT)..