일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 가상환경
- 재귀
- Retrieval
- 9020
- 기계학습
- 백준
- 손실함수
- 경사하강법
- 밑바닥부터 시작하는 딥러닝
- end to end
- 4948
- 15649
- BOJ
- 그리디 알고리즘
- N-Queen
- 개발환경
- pyenv
- 파이싼
- streamlit
- REST API
- Python
- 티스토리챌린지
- 파이썬
- 백트래킹
- 오블완
- 1002
- n과 m
- video retireval
- 1101
- 신경망 학습
- Today
- Total
목록분류 전체보기 (274)
파이톨치

1. 분리된 Layer들에 대한 정의 # LayerNorm class LayerNorm(nn.Module): "Construct a layernorm module (See citation for details)." def __init__(self, features, eps=1e-6): super(LayerNorm, self).__init__() self.a_2 = nn.Parameter(torch.ones(features)) self.b_2 = nn.Parameter(torch.zeros(features)) self.eps = eps def forward(self, x): mean = x.mean(-1, keepdim=True..

이 강의는 RNN 없이 순수하게 Attention만으로 시퀀스를 처리하는 방법, 즉 Transformer 모델의 핵심 개념을 설명하고 있다. 전체 내용을 하나의 글로 구조화해서 풀어보면 아래와 같다:Attention만으로 시퀀스를 처리할 수 있을까?기존의 Sequence-to-Sequence 모델은 인코더-디코더 구조에서 정보를 전달하기 위해 RNN이나 LSTM 등의 순환 구조를 사용했다. 그러나 이러한 방식은 장기 의존성(long-range dependency) 처리에 어려움을 겪는다. 이를 해결하기 위해 Attention Mechanism이 등장했으며, 이는 디코더가 인코더의 모든 시점 정보를 직접 참조할 수 있게 해주는 일종의 "지름길" 역할을 한다.이 강의에서는 한 발 더 나아가, Recurren..

베이지안 기법과 예측 모델링: 직관적 설명과 예시딥러닝의 주제로 들어가기 전, 지난 시간에는 베이지안 접근법을 중심으로 지도 학습에서의 추론 방법을 살펴보았다. 여기에는 크게 두 가지 방식이 있었다: 파라메트릭 베이지안 방법과 논파라메트릭 베이지안 방법.1. 파라메트릭 베이지안 접근법: 불확실성을 수식에 담다이 방식은 우리가 모델의 파라미터 θ(세타)를 어떤 고정된 값으로 생각하지 않고, 확률적으로 분포된 변수라고 가정하는 것이 핵심이다. 즉, 세타 자체를 알지 못하니, "세타는 이럴 확률이 높고, 저럴 확률이 낮아"라고 사전 확률(P(θ))을 설정한다.이후 관측된 데이터 (X,Y)를 통해, 세타가 주어진 데이터일 때 어떻게 분포하는지(P(θ|X,Y))를 Bayes 정리를 통해 계산한다. 이를 사후 확률..
Survey: Approaches to Long Video Understanding1. Introduction긴 길이의 비디오를 이해하는 것은 시간적 길이, 정보의 희소성, 계산 비용 등의 측면에서 큰 도전과제를 동반한다. 최근 Vision-Language Models (VLMs) 및 Multimodal Large Language Models (MLLMs)의 발전은 이러한 문제를 다루기 위한 다양한 전략을 낳았다. 본 서베이에서는 긴 비디오 이해를 위한 대표적인 다섯 개의 접근 방식—Adaptive Keyframe Sampling (AKS), UniTime, Re-thinking Temporal Search (LV-Haystack), TimeSearch, VideoMind—을 중심으로 sampling, ..

좋아. 이 논문 《Language-driven Description Generation and Common Sense Reasoning for Video Action Recognition》 내용을 너가 요청한 방식으로 상세하게, 예시 중심으로, 왜 이렇게 접근했는지, 어떻게 접근했는지, 어떤 결과가 나왔는지, 한계까지 차근차근 설명해볼게:1️⃣ 왜 이렇게 접근했나? (문제의식)기존 방식의 한계:기존 Video Action Recognition (VAR)은 영상 자체의 시각적 피쳐에만 의존하지만 실제 영상은 복잡하고, 사람이 보기에 명확해도:오클루전 (가려짐)다중 행동의 중첩모호한 행동 전이예를 들어:사람이 식탁에 앉아 접시를 들고 있으면 → 우리는 "먹으려 한다"를 추론함이런 **common sense ..

1️⃣ 왜 이렇게 접근했나? (문제 인식)기존 한계영상 길이가 다양함 → 짧은 클립 (~30초)부터 몇 시간짜리 긴 영상까지 다 다름.기존 방법:DETR-like (예: Moment-DETR) → 주로 짧은 영상에서 효과적, 긴 영상에서 어려움.MLLM 기반 방법 (예: Mr.BLIP, TimeChat 등) → 길이 문제, 메모리 한계, 긴 맥락 유지 어려움.특히 긴 영상에서는:특정 장면이 등장하는 위치가 굉장히 희소함 (needle-in-a-haystack 문제).전체 영상을 한번에 넣으면 GPU memory 초과.시간정보가 제대로 encode되지 않으면, "언제" 일어났는지 예측이 불안정함.2️⃣ 어떻게 접근했나? (UniTime의 핵심 아이디어)🎯 핵심 목표Universal Temporal Gro..

논문 제목: REXTIME — Reasoning Across Time in Videos왜 이렇게 접근했는가? (문제 의식)문제 배경기존의 멀티모달 대형 모델(MLLM)들은 영상과 텍스트를 잘 정렬시키는 데는 점점 성능이 좋아짐 (예: CLIP, Video-LLaMA, GPT-4o 등).하지만 시간을 건너뛰는 인과 추론 (Reasoning Across Time) 은 여전히 매우 약함.예: 영상의 앞부분에서 칼을 가는 장면이 나오고뒤에서 토마토를 자를 때 왜 칼을 갈았는지를 추론하는 식대부분의 기존 Video QA, Moment Retrieval, Dense Captioning은 질문-답변이 같은 시간대에 묶여 있는 경우가 많음.👉 핵심 문제의식“질문과 답변이 서로 다른 시간 구간에 있을 때” 모델들은 인..
(참고: 이 논문은 「CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding」입니다.)1️⃣ 왜 이렇게 접근했는가? (문제의식)기존 문제점:기존 VideoQA 벤치마크 대부분 짧은 영상 (수 초 ~ 수 분) 중심 → 장시간 영상 (10분 이상)은 상대적으로 평가 부족.기존 Long-Video 벤치마크도 있지만 대부분 Multiple Choice Question (MCQ) 중심 → 모델이 옵션 제거 (elimination) 방식으로 풀어버림.예: "이탈리아에서 노래 부른 뒤 뭘 했는가?"선택지 중 "루브르 박물관으로 갔다" → 상식적으로 틀렸으니 제거 → 정답 추론할 필요 없이 걸러짐.즉, 진짜로 영상을 본 건지 알..