일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- REST API
- 티스토리챌린지
- n과 m
- 백트래킹
- Retrieval
- 1002
- streamlit
- video retireval
- 경사하강법
- 밑바닥부터 시작하는 딥러닝
- end to end
- 가상환경
- 재귀
- 기계학습
- pyenv
- 9020
- 신경망 학습
- 백준
- BOJ
- 개발환경
- 오블완
- 그리디 알고리즘
- 15649
- 4948
- 파이싼
- 손실함수
- 파이썬
- Python
- N-Queen
- 1101
- Today
- Total
목록논문 (47)
파이톨치
논문 **《Watch and Listen: Understanding Audio-Visual-Speech Moments with Multimodal LLM》**에서는 인간처럼 시각, 청각, 음성 정보를 통합하여 비디오 속 순간을 이해하는 시스템, TriSense를 제안합니다. 요청하신 것처럼, 이 연구의 접근 방식, 이유, 방법, 예시, 결과, 한계까지 예시 중심으로 상세히 정리해드릴게요.✅ 왜 이렇게 접근했는가? (Motivation)🔍 문제 인식:기존 MLLM들은 시각 정보에 의존 → 비디오의 오디오, 음성(말하는 내용)을 활용하지 못함.실제 비디오 환경에서는 세 가지 모달리티(시각/청각/음성)가 항상 존재하지 않음 → 누락되거나 노이즈가 많음.따라서, 모달리티가 선택적으로 주어지는 상황에서도 강인한..
ViQAgent는 VideoQA 문제에 대해 Zero-shot, Agent 기반, Open-Vocabulary Grounding을 사용하는 새로운 프레임워크입니다. 아래에 논문에서 제시한 접근 방식이 왜 그렇게 설계되었는지, 어떻게 작동하는지, 예시, 결과, 한계까지 상세히 정리해드릴게요.🔍 왜 이런 접근을 했는가? (Why this approach?)기존 VideoQA 모델은 다음과 같은 한계가 있었습니다:시계열적, 인과적 추론 부족: VideoLLMs는 한두 프레임의 의미적 힌트만 보고 답을 내기도 함.End-to-End VLM은 black-box로 해석이 어려움.프레임 단위 object tracking 성능 부족: 정확한 grounding이나 object의 시간 추적에 취약.이를 해결하기 위해 V..

🎯 왜 이런 접근을 했는가? (문제 인식과 목적)🔍 기존 LVU 벤치마크의 한계MCQ 포맷 위주대부분의 기존 Long Video Understanding(LVU) 벤치마크들은 객관식(MCQ) 중심이었음.이로 인해 모델이 "찍어서 맞추거나", "선지의 힌트를 보고 정답을 유추"할 수 있음.예: Gemini-1.5-Pro는 Video-MME에서 랜덤 프레임 하나만으로도 50% 정확도를 낼 수 있었음 → 진정한 영상 이해가 아님.프레임 수 증가와 성능 무관보통 더 많은 프레임을 입력하면 정확도가 높아져야 하지만, 기존 벤치마크에서는 성능이 오히려 떨어지거나 정체됨.이는 질문이 짧은 단서만으로도 답할 수 있을 만큼 쉬움을 의미함.🎯 해결 목표모델이 진짜로 긴 영상 전체를 이해 해야만 답할 수 있는 질문을 ..

🔍 왜 이렇게 접근했는가?기존의 비디오 이해 벤치마크들은 세 가지 한계를 가짐:짧은 영상만 포함되어 있어서 Long Video Understanding (LVU)을 평가하기 어렵다.영상 장르나 과제가 다양하지 않음 → 실제 활용 시나리오 반영 어려움.질문 자체가 비디오 맥락을 요구하지 않음 → 예: 유명한 영화나 인물에 대한 지식만으로 답 가능.→ 즉, 현재의 MLLM(Multimodal LLM)들이 "진짜로" 긴 영상 이해를 잘하는지 알 수 없었음.🛠 어떻게 접근했는가? (벤치마크 구성 방식)MLVU는 아래 세 가지 핵심 아이디어를 바탕으로 설계되었어:1. 다양한 영상 길이3분 ~ 2시간짜리 영상 포함.각 영상은 3분/6분/전체 등 다양한 길이로 나눠서 평가 가능.예: 2시간짜리 영화를 3분 단위로..
✅ 1. 왜 이런 접근을 했는가? (Motivation)문제점 1: 텍스트로 답할 수 있는 문제들 (LLM-Answerable Questions)많은 질문들이 영상 없이도 LLM의 사전지식만으로 답이 가능.실제로 GPT-4o가 VideoMME, NExT-QA에서 영상 없이도 50% 정확도를 보임.예시: "사람이 생일 축하할 때 케이크를 들고 있는 이유는?" → 영상 안 봐도 LLM이 문맥상 추론 가능.문제점 2: 시간 순서를 섞어도 정답률이 유지됨 (Shuffling Invariance)프레임 순서를 바꿔도 모델 성능이 크게 떨어지지 않음.→ 이건 모델이 시각적 장면만 보고 답한다는 의미, 진짜 시간적 추론 능력이 필요 없는 문제라는 것.핵심 비판:기존 벤치마크는 정적인 시각 정보 처리 능력 또는 텍스트..

✅ 왜 이렇게 접근했는가? (동기)문제의식:기존 비디오-텍스트 벤치마크들은 대부분 짧은 비디오(수십 초~3분) 위주이고, 심지어 몇 개의 대표 프레임만으로도 풀 수 있는 문제들이 많아 실제 LMM의 "길고 복잡한" 입력 처리 능력을 평가하기엔 부족함.Single-frame bias: 모델이 많은 프레임을 보더라도 성능이 크게 개선되지 않음 → 장시간 맥락 이해를 필요로 하지 않기 때문.텍스트 LLM과의 격차: 최근 GPT-4, Gemini 같은 LLM들은 128K 이상의 긴 컨텍스트를 이해할 수 있게 되었지만, 멀티모달 LMM에 대한 긴 컨텍스트 벤치마크는 거의 없음.목표:LMM이 1시간까지의 비디오 + 자막을 정밀하게 참조하고 복잡하게 추론할 수 있는지를 평가하는 새로운 벤치마크를 만들자.🔍 어떻게 ..
1. 왜 이렇게 접근했는가? (Motivation)기존의 멀티모달 대형 언어 모델(Multi-modal LLM, MLLM)은 이미지 기반 평가에는 성능이 입증되었지만, 비디오처럼 시퀀스 기반 시각 데이터에 대한 평가와 이해는 매우 부족했어. 특히 기존 벤치마크는 다음과 같은 한계가 있었어:비디오 길이가 짧아서 복잡한 시간 추론 불가 (예: 대부분 2분 이내)다양한 도메인을 커버하지 못함 (예: 대부분 영화나 일상 영상)오디오나 자막 같은 추가 모달리티 부족정확도 높은 수작업 평가 부재그래서 저자들은 더 현실적이고 복합적인 비디오 상황에서 MLLM을 평가할 수 있는 벤치마크인 Video-MME를 만들게 된 거야.2. 어떻게 접근했는가? (Approach)📌 핵심 전략은 4가지야:다양한 비디오 도메인: 6..
논문 RAVU (Retrieval Augmented Video Understanding)는 기존 멀티모달 모델들이 긴 영상에서 복잡한 질의를 이해하는 데 한계가 있다는 점에서 출발합니다. 이 논문은 영상의 구조적 메모리(graph)를 만들고, **그 위에서 질의에 따라 단계적으로 추론(compositional reasoning)**을 수행해 답을 찾는 방식을 제안합니다.🔍 왜 이렇게 접근했는가? (문제의식)문제 1: LMM은 긴 영상에 약함영상은 길고, 프레임 수는 많으며, LMM은 입력 토큰 수에 제한이 있음.예: 1시간 영상이면 수십만 개의 비주얼 토큰이 필요 → 불가능.문제 2: 기존 접근은 “질의에 직접 맞는 프레임”만 찾음유사도 기반으로 중요한 장면을 찾지만, “이 사람이 이 행동을 한 다음에..