'2025/06/24 글 목록

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

목록2025/06/24 (4)

파이톨치

Language-driven Description Generation and Common Sense Reasoning for Video Action Recognition

좋아. 이 논문 《Language-driven Description Generation and Common Sense Reasoning for Video Action Recognition》 내용을 너가 요청한 방식으로 상세하게, 예시 중심으로, 왜 이렇게 접근했는지, 어떻게 접근했는지, 어떤 결과가 나왔는지, 한계까지 차근차근 설명해볼게:1️⃣ 왜 이렇게 접근했나? (문제의식)기존 방식의 한계:기존 Video Action Recognition (VAR)은 영상 자체의 시각적 피쳐에만 의존하지만 실제 영상은 복잡하고, 사람이 보기에 명확해도:오클루전 (가려짐)다중 행동의 중첩모호한 행동 전이예를 들어:사람이 식탁에 앉아 접시를 들고 있으면 → 우리는 "먹으려 한다"를 추론함이런 **common sense ..

카테고리 없음 2025. 6. 24. 16:51

UniTime: Universal Video Temporal Grounding with Generative Multi-modal Large Language Models

1️⃣ 왜 이렇게 접근했나? (문제 인식)기존 한계영상 길이가 다양함 → 짧은 클립 (~30초)부터 몇 시간짜리 긴 영상까지 다 다름.기존 방법:DETR-like (예: Moment-DETR) → 주로 짧은 영상에서 효과적, 긴 영상에서 어려움.MLLM 기반 방법 (예: Mr.BLIP, TimeChat 등) → 길이 문제, 메모리 한계, 긴 맥락 유지 어려움.특히 긴 영상에서는:특정 장면이 등장하는 위치가 굉장히 희소함 (needle-in-a-haystack 문제).전체 영상을 한번에 넣으면 GPU memory 초과.시간정보가 제대로 encode되지 않으면, "언제" 일어났는지 예측이 불안정함.2️⃣ 어떻게 접근했나? (UniTime의 핵심 아이디어)🎯 핵심 목표Universal Temporal Gro..

카테고리 없음 2025. 6. 24. 15:49

REXTIME — Reasoning Across Time in Videos

논문 제목: REXTIME — Reasoning Across Time in Videos왜 이렇게 접근했는가? (문제 의식)문제 배경기존의 멀티모달 대형 모델(MLLM)들은 영상과 텍스트를 잘 정렬시키는 데는 점점 성능이 좋아짐 (예: CLIP, Video-LLaMA, GPT-4o 등).하지만 시간을 건너뛰는 인과 추론 (Reasoning Across Time) 은 여전히 매우 약함.예: 영상의 앞부분에서 칼을 가는 장면이 나오고뒤에서 토마토를 자를 때 왜 칼을 갈았는지를 추론하는 식대부분의 기존 Video QA, Moment Retrieval, Dense Captioning은 질문-답변이 같은 시간대에 묶여 있는 경우가 많음.👉 핵심 문제의식“질문과 답변이 서로 다른 시간 구간에 있을 때” 모델들은 인..

카테고리 없음 2025. 6. 24. 14:20

CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding

(참고: 이 논문은 「CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding」입니다.)1️⃣ 왜 이렇게 접근했는가? (문제의식)기존 문제점:기존 VideoQA 벤치마크 대부분 짧은 영상 (수 초 ~ 수 분) 중심 → 장시간 영상 (10분 이상)은 상대적으로 평가 부족.기존 Long-Video 벤치마크도 있지만 대부분 Multiple Choice Question (MCQ) 중심 → 모델이 옵션 제거 (elimination) 방식으로 풀어버림.예: "이탈리아에서 노래 부른 뒤 뭘 했는가?"선택지 중 "루브르 박물관으로 갔다" → 상식적으로 틀렸으니 제거 → 정답 추론할 필요 없이 걸러짐.즉, 진짜로 영상을 본 건지 알..

카테고리 없음 2025. 6. 24. 13:06

이전 Prev 1 Next 다음

목록2025/06/24 (4)

파이톨치

티스토리툴바