250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- n과 m
- 기계학습
- BOJ
- Python
- 백준
- 1002
- 신경망 학습
- 손실함수
- 그리디 알고리즘
- 백트래킹
- 15649
- 경사하강법
- 오블완
- 파이썬
- 밑바닥부터 시작하는 딥러닝
- video retireval
- end to end
- 티스토리챌린지
- 재귀
- 1101
- REST API
- 가상환경
- 4948
- 파이싼
- 9020
- N-Queen
- Retrieval
- 개발환경
- pyenv
- streamlit
Archives
- Today
- Total
목록2025/05/20 (1)
파이톨치
Video-MME: The First-Ever ComprehensiveEvaluation Benchmark of Multi-modalLLMs in Video Analysis
1. 왜 이렇게 접근했는가? (Motivation)기존의 멀티모달 대형 언어 모델(Multi-modal LLM, MLLM)은 이미지 기반 평가에는 성능이 입증되었지만, 비디오처럼 시퀀스 기반 시각 데이터에 대한 평가와 이해는 매우 부족했어. 특히 기존 벤치마크는 다음과 같은 한계가 있었어:비디오 길이가 짧아서 복잡한 시간 추론 불가 (예: 대부분 2분 이내)다양한 도메인을 커버하지 못함 (예: 대부분 영화나 일상 영상)오디오나 자막 같은 추가 모달리티 부족정확도 높은 수작업 평가 부재그래서 저자들은 더 현실적이고 복합적인 비디오 상황에서 MLLM을 평가할 수 있는 벤치마크인 Video-MME를 만들게 된 거야.2. 어떻게 접근했는가? (Approach)📌 핵심 전략은 4가지야:다양한 비디오 도메인: 6..
논문
2025. 5. 20. 13:20