일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 손실함수
- 기계학습
- 4948
- 오블완
- pyenv
- 그리디 알고리즘
- 1101
- 재귀
- N-Queen
- REST API
- 개발환경
- 백준
- 실버
- 가상환경
- 백트래킹
- 경사하강법
- 파이썬
- 파이싼
- n과 m
- 1002
- 티스토리챌린지
- 밑바닥부터 시작하는 딥러닝
- 신경망 학습
- Python
- 15649
- streamlit
- REST
- BOJ
- end to end
- 9020
- Today
- Total
목록2025/01 (8)
파이톨치
The physical therapy association is committed to keeping costs affordable for its certification programs. [be committed to: ~에 헌신하다, 전념하다, affordable: 저렴한, 적당한, cutting: 예리한, 매서운] At Pharmbeck's banquet, Mr. Jones accepted a trophy for his performance in this year's quality-improvement initiative.[banquet: 연회, 만찬, initiative: 계획, 활동 계획, hope for: 바라다] BYF company specializes in personalized pr..
Tarsier2Abstract이 논문은 정교하고 정확한 동영상 설명을 생성하며 뛰어난 일반 동영상 이해 능력을 가진 최첨단 대형 비전-언어 모델(LVLM)인 Tarsier2를 소개합니다. Tarsier2는 다음 세 가지 주요 업그레이드를 통해 큰 진전을 이루었습니다:사전 학습 데이터 규모를 1,100만 개에서 4,000만 개의 동영상-텍스트 쌍으로 확장하여 데이터의 양과 다양성을 풍부하게 함.지도 학습 세분화 단계에서 정교한 시간적 정렬 수행.모델 기반 샘플링을 사용해 선호 데이터를 자동으로 구성하고 최적화를 위해 DPO(Direct Preference Optimization) 훈련을 적용.광범위한 실험 결과, Tarsier2-7B는 세부 동영상 설명 작업에서 GPT-4o와 Gemini 1.5 Pro를 ..

[문제 출처: BoostCamp AI Tech 7기 유지환님] Object Detection 문제1. mAP는 어떻게 계산될 수 있는지 설명해주세요mAP는 mean Average Precision으로 알고 있다. (말이 좀 웃기긴 한다. 평균 평균 정확도?) 그렇다면, 정확도를 구한 다음에 이를 클래스당 평균을 내는 것이다. 그렇다면 여기서 말하는 정확도는 어떻게 구하는가? 내가 알기로는 겹치는 영역으로 측정하는 것으로 알고 있다. 아마도 겹치는 교집합 / 합집합 이렇게 구하는거 였던거 같은데... 겠냐;; 나는 AP 계산도 제대로 못하고 있었다;; 아 맞다 저 겹치는 영역은 IoU다. (intersection over union) 만약에 임계값이 0.5라면 이 비율의 값이 그 이상이면 정답으로 치겠다는..

Shotluck Holmes: 셜록홈즈Abstract 비디오는 점점 더 중요한 정보 밀도가 높은 매체가 되고 있지만, 이는 언어 모델에 상당한 도전 과제를 제기합니다. 일반적인 비디오는 더 짧은 세그먼트 또는 쇼트로 구성된 시퀀스로, 이들이 모여 하나의 일관된 내러티브를 형성합니다. 각 쇼트는 문장에서 단어와 유사하며, 시각적 데이터와 청각적 데이터를 동시에 처리해야 하는 다중 데이터 스트림을 포함합니다. 전체 비디오를 이해하려면 각 쇼트의 시각-청각 정보를 이해하는 것뿐만 아니라, 각 쇼트 간의 아이디어를 연결하여 더 크고 포괄적인 이야기를 생성하는 것이 필요합니다. 이 분야에서는 상당한 진전이 있었음에도 불구하고, 현재의 연구들은 비디오의 보다 세밀한 쇼트별 의미 정보를 종종 간과하고 있습니다.본 ..

https://github.com/openai/CLIP/blob/main/clip/model.py CLIP/clip/model.py at main · openai/CLIPCLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image - openai/CLIPgithub.com이 코드를 참조해서 작성했다. 처음 시작은 attention block을 만드는 것부터 시작한다. 여기서는 CNN을 사용하지 않고, 처음부터 입력 차원을 조절해줄 것이기 때문에 nn.MultiheadAttention 클래스를 그대로 사용하며, 그렇기에 코드도 더 간단하게 나온다. 입출력은 뒤에서 맞추어 주리고 하고, ..

https://github.com/openai/CLIP/blob/main/clip/model.py CLIP/clip/model.py at main · openai/CLIPCLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image - openai/CLIPgithub.com CLIP 코드를 대충 머리 속에 넣어두려고 한다. CLIP에 들어가는 인코더와 디코더의 구조, 그리고 학습하는 방법을 머리 속에 넣어둔다면 이를 응용할 일이 생길 때 유용할 것이라고 기대하기 때문이다. 그리고 이 정도 되는 코드를 머리 속에 넣어두어야 어디가서 쫄지 않고 코드를 잘 짤 수 있을 것 같기 때문이다. 스스..

[문제 출처: BoostCamp AI Tech 7기 유지환님] 1. FCN의 단점을 설명하고 CNN의 장점을 설명해주세요FCN은 Fully Connected Network의 준말이다. 이 구조를 사용하게 되는 경우에 "모든 입력 뉴련과 출력 뉴런이 연결되기 때문에" 계산량이 많이진다. n 길이의 벡터가 있을 때, h 길이의 hidden vector로 연산을 하게 되는 경우에, n x h 크기의 행렬이 필요하기 때문이다. 이미지와 같이 사이즈가 큰 입력 데이터가 들어오면 그 계산량은 훨씬 많아지게 된다. 또한 이미지의 공간적인 정보를 효과적으로 학습하기 어렵다. 왜냐하면 FCN을 사용한다고 가정했을 때, 이미지를 1차원 행렬로 flatten 해야 할 것인데, 이렇게 하면 이미지의 상하좌우 개념이 줄어즐게 ..

Abstract이 논문은 기존 비디오-텍스트 기반 모델에서 주로 시각(영상)과 텍스트가 탐구되었지만, 오디오와 자막과 같은 다른 모달리티는 충분히 연구되지 않았다는 문제의식에서 출발합니다.다중 모달리티 연결:비전(영상), 오디오, 자막, 텍스트를 연결하기 위해 VAST-27M이라는 대규모 다중 모달리티 비디오 캡션 데이터셋을 제안합니다.데이터 수집:2,700만 개의 공개 도메인 비디오 클립을 수집합니다.비전과 오디오 캡셔너(캡션 생성 모델)를 각각 훈련하여 비전 캡션과 오디오 캡션을 생성합니다.LLM 활용:사전 학습된 대형 언어 모델(LLM)을 활용하여 생성된 캡션을 자막 및 명령어 프롬프트와 통합하여 다중 모달리티 캡션을 만듭니다.VAST 모델:VAST-27M 데이터셋을 바탕으로 VAST라는 다중 모달..