일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 백준
- 신경망 학습
- 개발환경
- REST API
- pyenv
- 가상환경
- Retrieval
- 파이싼
- 1002
- 손실함수
- 9020
- 그리디 알고리즘
- 오블완
- 재귀
- 기계학습
- Python
- end to end
- 4948
- 티스토리챌린지
- 경사하강법
- 밑바닥부터 시작하는 딥러닝
- BOJ
- streamlit
- N-Queen
- video retireval
- 1101
- 백트래킹
- 파이썬
- n과 m
- 15649
- Today
- Total
목록2025/06/24 (4)
파이톨치

좋아. 이 논문 《Language-driven Description Generation and Common Sense Reasoning for Video Action Recognition》 내용을 너가 요청한 방식으로 상세하게, 예시 중심으로, 왜 이렇게 접근했는지, 어떻게 접근했는지, 어떤 결과가 나왔는지, 한계까지 차근차근 설명해볼게:1️⃣ 왜 이렇게 접근했나? (문제의식)기존 방식의 한계:기존 Video Action Recognition (VAR)은 영상 자체의 시각적 피쳐에만 의존하지만 실제 영상은 복잡하고, 사람이 보기에 명확해도:오클루전 (가려짐)다중 행동의 중첩모호한 행동 전이예를 들어:사람이 식탁에 앉아 접시를 들고 있으면 → 우리는 "먹으려 한다"를 추론함이런 **common sense ..

1️⃣ 왜 이렇게 접근했나? (문제 인식)기존 한계영상 길이가 다양함 → 짧은 클립 (~30초)부터 몇 시간짜리 긴 영상까지 다 다름.기존 방법:DETR-like (예: Moment-DETR) → 주로 짧은 영상에서 효과적, 긴 영상에서 어려움.MLLM 기반 방법 (예: Mr.BLIP, TimeChat 등) → 길이 문제, 메모리 한계, 긴 맥락 유지 어려움.특히 긴 영상에서는:특정 장면이 등장하는 위치가 굉장히 희소함 (needle-in-a-haystack 문제).전체 영상을 한번에 넣으면 GPU memory 초과.시간정보가 제대로 encode되지 않으면, "언제" 일어났는지 예측이 불안정함.2️⃣ 어떻게 접근했나? (UniTime의 핵심 아이디어)🎯 핵심 목표Universal Temporal Gro..

논문 제목: REXTIME — Reasoning Across Time in Videos왜 이렇게 접근했는가? (문제 의식)문제 배경기존의 멀티모달 대형 모델(MLLM)들은 영상과 텍스트를 잘 정렬시키는 데는 점점 성능이 좋아짐 (예: CLIP, Video-LLaMA, GPT-4o 등).하지만 시간을 건너뛰는 인과 추론 (Reasoning Across Time) 은 여전히 매우 약함.예: 영상의 앞부분에서 칼을 가는 장면이 나오고뒤에서 토마토를 자를 때 왜 칼을 갈았는지를 추론하는 식대부분의 기존 Video QA, Moment Retrieval, Dense Captioning은 질문-답변이 같은 시간대에 묶여 있는 경우가 많음.👉 핵심 문제의식“질문과 답변이 서로 다른 시간 구간에 있을 때” 모델들은 인..
(참고: 이 논문은 「CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding」입니다.)1️⃣ 왜 이렇게 접근했는가? (문제의식)기존 문제점:기존 VideoQA 벤치마크 대부분 짧은 영상 (수 초 ~ 수 분) 중심 → 장시간 영상 (10분 이상)은 상대적으로 평가 부족.기존 Long-Video 벤치마크도 있지만 대부분 Multiple Choice Question (MCQ) 중심 → 모델이 옵션 제거 (elimination) 방식으로 풀어버림.예: "이탈리아에서 노래 부른 뒤 뭘 했는가?"선택지 중 "루브르 박물관으로 갔다" → 상식적으로 틀렸으니 제거 → 정답 추론할 필요 없이 걸러짐.즉, 진짜로 영상을 본 건지 알..