일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 가상환경
- 기계학습
- 신경망 학습
- pyenv
- 재귀
- 1002
- 개발환경
- 백트래킹
- 백준
- 티스토리챌린지
- 4948
- video retireval
- 9020
- Retrieval
- REST API
- 오블완
- 그리디 알고리즘
- Python
- BOJ
- N-Queen
- 손실함수
- n과 m
- 경사하강법
- 파이썬
- 파이싼
- 15649
- streamlit
- end to end
- 1101
- 밑바닥부터 시작하는 딥러닝
- Today
- Total
목록2025/05/02 (2)
파이톨치
1. 기존 연구들의 한계비디오-LMM 개발의 도전 과제: 비디오 기반의 대형 다중모델(LMM)은 이미지 모델에 비해 상대적으로 미비하게 발전되었습니다. 이에는 높은 계산 비용과 비디오 샘플링 방법, 비전 인코더 선택 등 설계 결정을 체계적으로 탐구하지 않은 문제가 있습니다.확장성 문제: 전통적인 확장 법칙은 대형 모델에 적용할 때 한계가 있습니다. 다중모델을 결합하는 방식에서는 이러한 법칙들이 잘 적용되지 않으며, 작은 모델에서의 설계 결정이 큰 모델로 효과적으로 전달될 수 있는지에 대한 명확한 해답이 부족합니다.2. 접근 방식Apollo 탐구: 이 논문은 비디오-LMM 설계에서 효과적인 선택들을 다루는 포괄적인 연구를 제공합니다. 비디오 샘플링, 아키텍처 설계, 데이터 구성 등 여러 가지 요소를 탐구합..

1. 기존 연구의 한계비디오 순간 검색 및 하이라이트 탐지: 기존 모델들은 비디오와 텍스트 기능을 효과적으로 정렬하는 데 실패하여 실제 응용 프로그램에서 부족한 성능을 보였습니다.특징 추출 문제: SlowFast와 CLIP 같은 모델은 각각 비디오와 텍스트 기능을 잘 추출하지만, 이들을 결합하여 시간적 동역학을 제대로 처리하지 못해 순간 지역화와 하이라이트 탐지에서 한계가 있습니다.프리트레이닝 데이터셋 크기: QVHighlights 데이터셋은 상대적으로 작아 모델이 일반화하기 어려워 추가적인 데이터 없이 순간 검색 작업에서 성능을 발휘하기 어려운 문제를 겪었습니다.2. 접근 방법제안된 방법: 저자들은 Saliency-Guided DETR (SG-DETR)라는 새로운 아키텍처를 제안하며, 이는 DETR 기..