일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- video retireval
- 파이썬
- n과 m
- 가상환경
- 4948
- 신경망 학습
- N-Queen
- 손실함수
- 15649
- end to end
- streamlit
- 밑바닥부터 시작하는 딥러닝
- REST API
- 경사하강법
- Python
- 9020
- 1002
- 백트래킹
- 백준
- 파이싼
- 기계학습
- pyenv
- 개발환경
- 그리디 알고리즘
- Retrieval
- 티스토리챌린지
- BOJ
- 재귀
- 오블완
- 1101
- Today
- Total
목록2025/06 (4)
파이톨치
좋아, 논문 QA-TIGER: Question-Aware Gaussian Experts for Audio-Visual Question Answering 를 예시를 들어 상세히 설명해줄게. 특히 왜 이런 접근을 했는지, 어떻게 접근했는지, 어떤 방식으로 구현했고 어떤 결과를 얻었으며, 어떤 한계가 있는지를 예시 기반으로 논리적으로 서술해볼게.🔍 왜 이런 접근을 했는가? (Motivation)기존 AVQA 모델은 다음과 같은 한계가 있음:질문 정보 활용의 한계대부분의 기존 모델은 질문 정보를 reasoning 단계에서만 사용함. 즉, 오디오-비주얼 feature를 추출하는 과정에는 질문 정보가 반영되지 않음.→ 질문과 무관한 정보에 많은 연산 자원이 소모됨.Temporal Grounding 문제대부분 un..

🧠 왜 이런 접근을 했는가? (Motivation)기존 Video QA(Task) 대부분은 비디오 안에 답이 있다고 가정하고 질문을 만들고, 답도 그 안에서 찾도록 되어 있음.하지만 실제 유튜브 instructional 영상의 댓글을 보면, 사람들은 비디오로는 답이 안 되는 질문도 종종 함. 예:❓ “Where did you know that is 400nm?”→ 비디오에 해당 수치가 언급되지 않으면 답변할 수 없음. 이런 질문은 "unanswerable"임.이런 현실적인 상황에서는 단순히 정답을 생성하는 것보다 먼저 이 질문이 비디오에서 답할 수 있는지 판단하는 게 중요함.즉, "answerability" 판단이 선행돼야 함.🔍 어떻게 접근했는가? (Approach Overview)현실 질문 수집:..

논문 MMR-V: What’s Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos는 기존 비디오 벤치마크가 갖는 한계를 극복하고, 진정한 멀티모달 추론 능력을 평가하기 위해 새롭게 제안된 벤치마크입니다. 아래에 논문이 왜 이런 방식으로 접근했는지, 어떻게 접근했는지, 예시와 함께 어떤 기법을 사용했는지, 실험 결과 및 한계를 상세히 설명드릴게요.❓ 왜 이런 방식으로 접근했는가?기존 비디오 벤치마크의 한계:대부분 지각(perception) 위주의 단순한 이해 과제 (ex. 특정 프레임에서 일어난 일 묘사)질문이 언급한 프레임과 인접 프레임만 보면 해결되는 근시안적 reasoning진짜 "이유", "감정", "의도", "상징성" 등은 평가하지 ..

✅ 왜 이렇게 접근했는가? (Motivation)기존의 Video QA 벤치마크(Video-MME, TempCompass 등)는 대부분 언어 지식이나 프레임 단위 추론에 의존하기 때문에, 실제 "시각 기반 복잡한 추론 능력"을 평가하기 어렵습니다.이 논문은 아래 두 가지 문제의식을 기반으로 새로운 벤치마크를 제안합니다:CoT(Chain of Thought) Reasoning은 텍스트/수학/코딩에서는 성능을 높이는 데 유효한데, 비디오 이해에서는 아직 충분히 검증되지 않았다.기존 벤치마크는 대부분 "간단한 기억"이나 "정적 장면 묘사" 수준의 문제만 다루고 있어서, 정교한 연산 추적, 상태 변화 추론, 미래 예측 등의 고차원적 reasoning을 측정하지 못함.🧠 어떻게 접근했는가? (Approach)1..