일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 신경망 학습
- n과 m
- 파이싼
- pyenv
- BOJ
- 티스토리챌린지
- 오블완
- 손실함수
- 4948
- 개발환경
- 9020
- 15649
- 백트래킹
- 밑바닥부터 시작하는 딥러닝
- 그리디 알고리즘
- Python
- 재귀
- 1101
- streamlit
- 1002
- 가상환경
- 기계학습
- 파이썬
- end to end
- video retireval
- 경사하강법
- Retrieval
- REST API
- N-Queen
- 백준
- Today
- Total
목록전체 글 (235)
파이톨치

Cambrian-1은 시각 중심 접근 방식으로 설계된 멀티모달 대형 언어 모델(MLLM) 패밀리이다. 일반적으로 강력한 언어 모델이 멀티모달 성능을 향상시킬 수 있지만, 시각적 구성 요소의 설계는 충분히 연구되지 않았으며, 기존 시각 표현 학습 연구와 단절되어 있다. 이러한 격차는 실제 환경에서의 정확한 감각적 연결(sensory grounding)을 저해하는 요인으로 작용한다. 본 연구에서는 LLM과 시각 명령어 튜닝(Visual Instruction Tuning)을 인터페이스로 활용하여, 자가 지도 학습(Self-Supervised), 강력한 지도 학습(Strongly Supervised), 또는 이들의 조합을 포함한 다양한 시각 표현 학습 모델을 평가한다. 20개 이상의 시각 인코더를 실험적으로 분..

1. LLaVA (Visual Instruction Tuning)기계 생성된 명령 수행 데이터를 사용한 대형 언어 모델(LLM)의 명령 튜닝(instruction tuning)은 새로운 작업에 대한 제로샷(zero-shot) 성능을 향상시키는 것으로 알려져 있다. 하지만, 다중모달(multimodal) 분야에서는 아직 연구가 부족하다. 이에 우리는 GPT-4를 활용하여 다중모달(언어-이미지) 명령 수행 데이터를 생성하는 첫 번째 시도를 소개한다.연구의 주요 기여본 논문에서는 시각 명령 튜닝(Visual Instruction-Tuning)이라는 개념을 도입하여, 기존의 명령 튜닝을 언어-이미지 다중모달 영역으로 확장하는 첫 번째 시도를 제시한다. 주요 기여는 다음과 같다.다중모달 명령 수행 데이터 구축비전..

NMS (Non-Maximum Suppression) NMS 앙상블은 여러 개의 객체 탐지 모델이 예측한 바운딩 박스를 합치는 기법 중 하나야. 일반적인 NMS(Non-Maximum Suppression) 는 중복된 박스를 제거하는 과정이지만, NMS 앙상블은 여러 모델의 예측 결과를 조합하여 더 강력한 탐지 결과를 얻는 방법이야.💡 어디에 쓰냐면?객체 탐지 모델을 여러 개 조합할 때(예: Faster R-CNN + YOLO + RetinaNet)앙상블을 활용해 탐지 성능을 극대화할 때 여러 모델이 예측한 바운딩 박스 수집바운딩 박스 클러스터링 (IOU 기준으로 비슷한 박스를 그룹화)각 클러스터에서 최적의 박스 선택보통 가중 평균(Weighted Box Fusion, WBF)또는 신뢰도가 가장 높은 박..

chatgpt가 발달하면서 나는 이제 인간의 지능이라고 하는 것, 즉 사고는 정복당할 것이라고 생각했다. 실제로 이러한 사고능력(수학적인 능력, 논리적인 사고력) 등이 이전보다 비약적인 발전을 하고 있다.그렇기에 다음스텝은 이러한 사고력을 기반으로 여러가지 모달리티(감각)를 합치는 것이라 생각했다. 이러한 관점에서 멀티모달에 대해 공부하는 것은 굉장히 시기 적절한 것이다. 기본적으로 텍스트만 보고 텍스트를 추론하는 것을 uni-modal이라고 한다. 하지만 시각적인 이미지를 보고 텍스트로 출력하는 것은 시각과 text 2가지 모달리티를 결합했기에 multi-modal이라고 부른다. 딥러닝 관점에서 이러한 결합이 어려운 이유는 representation 공간 때문이다. 이는 벡터 공간이라고 하는데, 입..

1. 다국어 CLIP 기반 대조학습 프레임워크처음에 자대 연구실에 들어가서 했던 연구이다. 2023년도 6월에 KCC에 제출했던 논문이다. (사실 이때는 연구실 처음 들어갔을 때라, 발표용 포스터 제작과 논문 일부만 작성했다.) 학습은 대조학습을 기반으로 하고 있고, 이미지에 대한 변경은 없고 텍스트를 바꾼다. 마스크드 언어 모델을 통해서, 윤 대통령을 문 대통령으로 바꾸는 식이다. 이때 형태소 분석 & 객체명 인식을 통해서 '누가', '무엇을' 했는지 등을 바꾸게 된다. 변경된 텍스트는 negative sample로 사용하여 clip 모델을 학습시킨다. 데이터는 인터넷 뉴스의 텍스트와 썸네일이다. 2. 언어모델의 소수 추론 능력 평가처음으로, 스스로 쓴 논문이다. 연구하게 된 배경은 연구실 세미나 시간..
The physical therapy association is committed to keeping costs affordable for its certification programs. [be committed to: ~에 헌신하다, 전념하다, affordable: 저렴한, 적당한, cutting: 예리한, 매서운] At Pharmbeck's banquet, Mr. Jones accepted a trophy for his performance in this year's quality-improvement initiative.[banquet: 연회, 만찬, initiative: 계획, 활동 계획, hope for: 바라다] BYF company specializes in personalized pr..
Tarsier2Abstract이 논문은 정교하고 정확한 동영상 설명을 생성하며 뛰어난 일반 동영상 이해 능력을 가진 최첨단 대형 비전-언어 모델(LVLM)인 Tarsier2를 소개합니다. Tarsier2는 다음 세 가지 주요 업그레이드를 통해 큰 진전을 이루었습니다:사전 학습 데이터 규모를 1,100만 개에서 4,000만 개의 동영상-텍스트 쌍으로 확장하여 데이터의 양과 다양성을 풍부하게 함.지도 학습 세분화 단계에서 정교한 시간적 정렬 수행.모델 기반 샘플링을 사용해 선호 데이터를 자동으로 구성하고 최적화를 위해 DPO(Direct Preference Optimization) 훈련을 적용.광범위한 실험 결과, Tarsier2-7B는 세부 동영상 설명 작업에서 GPT-4o와 Gemini 1.5 Pro를 ..

[문제 출처: BoostCamp AI Tech 7기 유지환님] Object Detection 문제1. mAP는 어떻게 계산될 수 있는지 설명해주세요mAP는 mean Average Precision으로 알고 있다. (말이 좀 웃기긴 한다. 평균 평균 정확도?) 그렇다면, 정확도를 구한 다음에 이를 클래스당 평균을 내는 것이다. 그렇다면 여기서 말하는 정확도는 어떻게 구하는가? 내가 알기로는 겹치는 영역으로 측정하는 것으로 알고 있다. 아마도 겹치는 교집합 / 합집합 이렇게 구하는거 였던거 같은데... 겠냐;; 나는 AP 계산도 제대로 못하고 있었다;; 아 맞다 저 겹치는 영역은 IoU다. (intersection over union) 만약에 임계값이 0.5라면 이 비율의 값이 그 이상이면 정답으로 치겠다는..