일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 백준
- streamlit
- Retrieval
- 파이썬
- REST API
- 티스토리챌린지
- 그리디 알고리즘
- 백트래킹
- 가상환경
- video retireval
- end to end
- pyenv
- 개발환경
- Python
- N-Queen
- 오블완
- 파이싼
- 1002
- 경사하강법
- 4948
- 밑바닥부터 시작하는 딥러닝
- 15649
- 신경망 학습
- 9020
- n과 m
- 1101
- 기계학습
- BOJ
- 재귀
- 손실함수
- Today
- Total
목록2025/04 (30)
파이톨치

VIDEOTREE는 long-form video reasoning을 위한 training-free 프레임워크로, 긴 영상에서 redundant information과 query-irrelevant content 문제를 해결하고자 합니다. 주요 특징은 query-adaptive하고 hierarchical video representation을 구축하여 **Large Language Models (LLMs)**로 영상에 대한 효과적인 추론을 수행하는 것입니다.주요 개념과 접근 방식:Query-Adaptive Video Representation:Query-relevant keyframes를 동적으로 추출하는 iterative process를 사용.영상에서 관련 없는 정보를 줄여 redundancy를 최소화하..

Motivation (동기):이 연구는 기존의 비디오 이해 모델들이 visual-only 또는 coarse-grained 작업에 한정되어 있다는 한계를 극복하고자 하였습니다. 실제 영상에는 vision, audio, speech 정보가 복합적으로 존재하며, 이들을 종합적으로 처리해야만 진정한 비디오 이해가 가능합니다. 하지만 기존 데이터셋은 이런 복합적인 정보를 포함하는 fine-grained temporal annotations이 부족했습니다. LongVALE는 이런 문제를 해결하기 위해 다양한 omni-modal(시각, 음성, 언어) 정보를 포함하는 데이터셋을 제안합니다.Methodology (방법론):Data Collection and Filtering (데이터 수집 및 필터링):다양한 플랫폼에서 ..

논문 "SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis"는 긴 영상 콘텐츠를 이해하는 문제를 다룹니다. 기존의 대형 멀티모달 모델(LMMs)은 긴 영상에서 중요한 정보를 놓치거나 처리하는 데 어려움을 겪고 있기 때문에, 이 논문에서는 SALOVA라는 새로운 접근 방식을 제시합니다. SALOVA는 long-form video에서 중요한 세그먼트를 targeted retrieval하여 처리하는 방식으로 contextual relevance를 향상시키고자 합니다.왜 이 방식인가?긴 영상에서의 문제: 현재의 LMM들은 context length에 제한이 있어 한 번..

ReWind는 긴 비디오를 효율적으로 이해하면서 시간적 일관성을 유지할 수 있도록 설계된 메모리 기반 비전-언어 모델(VLM)입니다. 주요 내용은 다음과 같습니다.Motivation (동기)ReWind의 주된 동기는 긴 비디오를 처리하는 기존 비전-언어 모델(VLMs)의 한계를 극복하는 것입니다. 기존 모델들은 다음과 같은 문제를 겪습니다:계산 비효율성: 긴 비디오는 self-attention 메커니즘이 토큰 수에 따라 제곱 비례로 메모리를 요구하여 처리에 비효율적입니다.메모리 제한: 긴 비디오는 많은 시각적 정보를 담고 있어 중요한 세부 정보를 장기적으로 기억하고 호출하는 데 어려움이 있습니다.시간적 이해 부족: 긴 비디오에서 일관된 시간적 이해를 유지하는 데 어려움이 있습니다.ReWind는 동적 학습..

이 논문에서는 FuseMix라는 방법을 제안하며, 이는 일반적인 멀티모달 융합에서 발생하는 높은 계산 비용과 데이터 비용 문제를 해결하려는 접근법입니다. 기존의 멀티모달 모델들은 대규모 데이터셋과 많은 계산 자원을 사용해 훈련되므로 실용적인 환경에서는 매우 비쌉니다. 이에 비해 FuseMix는 사전 훈련된 단일 모달 인코더의 잠재 공간에서 작동하는 새로운 데이터 증강 기법을 제시하여, 멀티모달 융합을 효율적으로 수행할 수 있게 합니다.접근법의 핵심 사항방법론:FuseMix는 사전 훈련된 단일 모달 인코더(이미지, 텍스트, 오디오 등)를 활용하여, mixup 기법에서 영감을 얻은 증강 전략을 적용합니다. 이는 서로 다른 모달리티의 잠재 표현을 선형 보간하여 새로운, 의미 있는 멀티모달 쌍을 생성합니다.단일..

문제의 소개멀티모달 대형 언어 모델(Multimodal LLMs)은 이미지와 텍스트 데이터를 결합하여 다양한 작업을 수행합니다. 그러나 현재의 모델은 고해상도 이미지 처리에 있어 제한적입니다. 예를 들어, 기존의 vision encoder는 이미지를 낮은 해상도로 축소하여 중요한 비주얼 디테일을 놓칠 수 있습니다. 이는 정확한 시각적 그라운딩이 필요한 작업에서 문제가 됩니다.새로운 해결책: V∗ 비주얼 서치 더보기논문에서 사용된 주요 모델은 다음과 같습니다:VQA LLM (Visual Question Answering LLM):LLaVA-7B: VQA 모델로, 질문에 대해 시각적 정보와 텍스트를 결합하여 답을 생성하는 데 사용됩니다. SEAL 프레임워크에서는 LLaVA-7B가 VQA LLM과 VWM(Vi..

논문 제목: Bridging the Gap: A Unified Video Comprehension Framework for Moment Retrieval and Highlight Detection1. 연구 동기 (Motivation)문제 정의: 최근 비디오 분석 수요가 급증하면서, Video Moment Retrieval (MR) 과 Highlight Detection (HD) 두 가지 태스크가 주목받고 있다. MR은 특정 순간을 찾는 작업, HD는 비디오에서 중요한 부분을 찾아내는 작업이다. 기존 연구에서는 이 두 태스크를 공통적인 비디오 정렬 문제로 다루어 왔으나, 각 태스크가 강조하는 부분(로컬 관계 vs 글로벌 정보)에서 차이가 있다는 점이 간과되었다.문제 해결 필요성: 두 태스크의 특성을 고려한..
논문 *"Task-Driven Exploration: Decoupling and Inter-Task Feedback for Joint Moment Retrieval and Highlight Detection"*은 **모멘트 검색(MR)**과 하이라이트 탐지(HD) 두 가지 중요한 비디오 이해 작업을 동시에 처리하는 새로운 프레임워크인 TaskWeave를 제안합니다. 주요 내용은 다음과 같습니다:1. 동기기존의 문제점: 기존의 많은 연구들은 모멘트 검색과 하이라이트 탐지를 별개의 작업으로 다루며, 공통적인 특징을 추출하는 모델을 공유하는 방식으로 처리합니다. 그러나 이러한 접근법은 각 작업의 특성을 제대로 반영하지 못하고, 두 작업 간의 상호작용을 무시하여 성능이 최적화되지 않습니다.제안된 해결책: 본 논..