'분류 전체보기' 카테고리의 글 목록

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록분류 전체보기 (275)

파이톨치

[논문 중간 계획] Dataset Generation Method

보호되어 있는 글입니다.

카테고리 없음 2025. 7. 28. 16:45

Transformer Code Level Annalysis

1. 분리된 Layer들에 대한 정의 # LayerNorm class LayerNorm(nn.Module): "Construct a layernorm module (See citation for details)." def __init__(self, features, eps=1e-6): super(LayerNorm, self).__init__() self.a_2 = nn.Parameter(torch.ones(features)) self.b_2 = nn.Parameter(torch.zeros(features)) self.eps = eps def forward(self, x): mean = x.mean(-1, keepdim=True..

카테고리 없음 2025. 7. 26. 22:02

CS 182: Lecture 12: Part 1: Transformers

이 강의는 RNN 없이 순수하게 Attention만으로 시퀀스를 처리하는 방법, 즉 Transformer 모델의 핵심 개념을 설명하고 있다. 전체 내용을 하나의 글로 구조화해서 풀어보면 아래와 같다:Attention만으로 시퀀스를 처리할 수 있을까?기존의 Sequence-to-Sequence 모델은 인코더-디코더 구조에서 정보를 전달하기 위해 RNN이나 LSTM 등의 순환 구조를 사용했다. 그러나 이러한 방식은 장기 의존성(long-range dependency) 처리에 어려움을 겪는다. 이를 해결하기 위해 Attention Mechanism이 등장했으며, 이는 디코더가 인코더의 모든 시점 정보를 직접 참조할 수 있게 해주는 일종의 "지름길" 역할을 한다.이 강의에서는 한 발 더 나아가, Recurren..

카테고리 없음 2025. 7. 23. 14:24

Stanford CS229: Machine Learning | Summer 2019 | Lecture 10 - Deep learning - I

베이지안 기법과 예측 모델링: 직관적 설명과 예시딥러닝의 주제로 들어가기 전, 지난 시간에는 베이지안 접근법을 중심으로 지도 학습에서의 추론 방법을 살펴보았다. 여기에는 크게 두 가지 방식이 있었다: 파라메트릭 베이지안 방법과 논파라메트릭 베이지안 방법.1. 파라메트릭 베이지안 접근법: 불확실성을 수식에 담다이 방식은 우리가 모델의 파라미터 θ(세타)를 어떤 고정된 값으로 생각하지 않고, 확률적으로 분포된 변수라고 가정하는 것이 핵심이다. 즉, 세타 자체를 알지 못하니, "세타는 이럴 확률이 높고, 저럴 확률이 낮아"라고 사전 확률(P(θ))을 설정한다.이후 관측된 데이터 (X,Y)를 통해, 세타가 주어진 데이터일 때 어떻게 분포하는지(P(θ|X,Y))를 Bayes 정리를 통해 계산한다. 이를 사후 확률..

카테고리 없음 2025. 7. 22. 13:13

Survey: Approaches to Long Video Understanding

Survey: Approaches to Long Video Understanding1. Introduction긴 길이의 비디오를 이해하는 것은 시간적 길이, 정보의 희소성, 계산 비용 등의 측면에서 큰 도전과제를 동반한다. 최근 Vision-Language Models (VLMs) 및 Multimodal Large Language Models (MLLMs)의 발전은 이러한 문제를 다루기 위한 다양한 전략을 낳았다. 본 서베이에서는 긴 비디오 이해를 위한 대표적인 다섯 개의 접근 방식—Adaptive Keyframe Sampling (AKS), UniTime, Re-thinking Temporal Search (LV-Haystack), TimeSearch, VideoMind—을 중심으로 sampling, ..

카테고리 없음 2025. 6. 27. 16:00

Language-driven Description Generation and Common Sense Reasoning for Video Action Recognition

좋아. 이 논문 《Language-driven Description Generation and Common Sense Reasoning for Video Action Recognition》 내용을 너가 요청한 방식으로 상세하게, 예시 중심으로, 왜 이렇게 접근했는지, 어떻게 접근했는지, 어떤 결과가 나왔는지, 한계까지 차근차근 설명해볼게:1️⃣ 왜 이렇게 접근했나? (문제의식)기존 방식의 한계:기존 Video Action Recognition (VAR)은 영상 자체의 시각적 피쳐에만 의존하지만 실제 영상은 복잡하고, 사람이 보기에 명확해도:오클루전 (가려짐)다중 행동의 중첩모호한 행동 전이예를 들어:사람이 식탁에 앉아 접시를 들고 있으면 → 우리는 "먹으려 한다"를 추론함이런 **common sense ..

카테고리 없음 2025. 6. 24. 16:51

UniTime: Universal Video Temporal Grounding with Generative Multi-modal Large Language Models

1️⃣ 왜 이렇게 접근했나? (문제 인식)기존 한계영상 길이가 다양함 → 짧은 클립 (~30초)부터 몇 시간짜리 긴 영상까지 다 다름.기존 방법:DETR-like (예: Moment-DETR) → 주로 짧은 영상에서 효과적, 긴 영상에서 어려움.MLLM 기반 방법 (예: Mr.BLIP, TimeChat 등) → 길이 문제, 메모리 한계, 긴 맥락 유지 어려움.특히 긴 영상에서는:특정 장면이 등장하는 위치가 굉장히 희소함 (needle-in-a-haystack 문제).전체 영상을 한번에 넣으면 GPU memory 초과.시간정보가 제대로 encode되지 않으면, "언제" 일어났는지 예측이 불안정함.2️⃣ 어떻게 접근했나? (UniTime의 핵심 아이디어)🎯 핵심 목표Universal Temporal Gro..

카테고리 없음 2025. 6. 24. 15:49

REXTIME — Reasoning Across Time in Videos

논문 제목: REXTIME — Reasoning Across Time in Videos왜 이렇게 접근했는가? (문제 의식)문제 배경기존의 멀티모달 대형 모델(MLLM)들은 영상과 텍스트를 잘 정렬시키는 데는 점점 성능이 좋아짐 (예: CLIP, Video-LLaMA, GPT-4o 등).하지만 시간을 건너뛰는 인과 추론 (Reasoning Across Time) 은 여전히 매우 약함.예: 영상의 앞부분에서 칼을 가는 장면이 나오고뒤에서 토마토를 자를 때 왜 칼을 갈았는지를 추론하는 식대부분의 기존 Video QA, Moment Retrieval, Dense Captioning은 질문-답변이 같은 시간대에 묶여 있는 경우가 많음.👉 핵심 문제의식“질문과 답변이 서로 다른 시간 구간에 있을 때” 모델들은 인..

카테고리 없음 2025. 6. 24. 14:20

이전 Prev 1 2 3 4 ··· 35 Next 다음

목록분류 전체보기 (275)

파이톨치

티스토리툴바