250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 재귀
- 백트래킹
- 1002
- 실버
- 파이싼
- Python
- 4948
- 파이썬
- 손실함수
- BOJ
- pyenv
- REST API
- 티스토리챌린지
- end to end
- 신경망 학습
- streamlit
- 기계학습
- 밑바닥부터 시작하는 딥러닝
- 오블완
- N-Queen
- 그리디 알고리즘
- n과 m
- 개발환경
- 백준
- 경사하강법
- 가상환경
- 15649
- 9020
- 1101
- REST
Archives
- Today
- Total
목록2025/04/01 (1)
파이톨치

1. LLaVA (Visual Instruction Tuning)기계 생성된 명령 수행 데이터를 사용한 대형 언어 모델(LLM)의 명령 튜닝(instruction tuning)은 새로운 작업에 대한 제로샷(zero-shot) 성능을 향상시키는 것으로 알려져 있다. 하지만, 다중모달(multimodal) 분야에서는 아직 연구가 부족하다. 이에 우리는 GPT-4를 활용하여 다중모달(언어-이미지) 명령 수행 데이터를 생성하는 첫 번째 시도를 소개한다.연구의 주요 기여본 논문에서는 시각 명령 튜닝(Visual Instruction-Tuning)이라는 개념을 도입하여, 기존의 명령 튜닝을 언어-이미지 다중모달 영역으로 확장하는 첫 번째 시도를 제시한다. 주요 기여는 다음과 같다.다중모달 명령 수행 데이터 구축비전..
논문
2025. 4. 1. 15:34