일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 파이썬
- 파이싼
- 실버
- 경사하강법
- 신경망 학습
- 손실함수
- 백준
- Python
- 기계학습
- 백트래킹
- 1002
- 개발환경
- 재귀
- 설정
- n과 m
- N-Queen
- 4948
- 1101
- end to end
- BOJ
- pyenv
- 15649
- 밑바닥부터 시작하는 딥러닝
- 9020
- streamlit
- Mac
- 그리디 알고리즘
- 가상환경
- Today
- Total
파이톨치
[CVPR 2022 tutorial] unified image-text modeling 본문
unified image-text modeling
image-text taskes overview
1. close-set classification
간단한 분류 문제, 인풋은 이미지와 텍스트이다. 싱글 모델이 분류한다.
2. open ended text sequence
관련 task: image captioning, paragraph captioning, open-ended VQA
open-vocab에 대한 예측을 한다.
3. Box/mask Localization
관련 task: visual grounding, language-based segmentation
4. pixel prediction
관련 task: text-to-image synthesis, text-based image editin
why unified image-text modeling? (주의 깊게 봐야 됨)
better perfoermance
가장 중요한 이유 중 하나이다. 높일 수 있는 이유 중 멀티 테스트 학습과 유사한 능력이 있다는 점이다. 또한, 다른 테스크로부터 추가적인 데이터나 annotation을 얻을 수 있다.
new capabilitys
예를 들어, text + box 를 통해, grounded captioning을 할 수 있고, 이미지 묘사에 대해 더 이해심 있는 모델을 만들 수 있다. visual hallucination도 줄일 수 있다고? 그게 뭔데 또 왜 줄어드는데.
task agnostic unified systems
간단한 framwork 디자인이 가능하다.
일반화 능력? 완전한 annotion이 필요 없다?
unified image text models
Vision-Language pre-training (VLP)
- large scale transformer based self supervised pre-training
- reuse the same pre-training weight as initialization point (???)
- separate output head and fine-tune model copies for different downstream tasks
classification as text generation
# 12-in-1
single model for 12 tasks (multi-task)
relatioships among tasks -> better averaged performance
task-specific heads and objectives
shared network
# VL-T5
image-text tasks as multimodal-conditional text generation
avoid task-specific arch design and model copies (모델 복사가 뭔데)
model design and training
output format unification이 첫번째 단계이다. 어떻게 다른 task를 가질 수 있을지, 잘 동작하는 능력을 가질 수 있을지.
1. 부분적으로 파라미터를 공유.
mdality expert를 섞는다. task-specific한 파라미터를 사용한다. (image-credit, vl-adapter)
2. 네트워크 디자인 모듈.
하나의 모달리티 task를 위해서 하나의 인코더를 사용한다. 조정된 submodules를 다른 테스트에 재사용한다. (BLIP)
3. 데이터와 학습 기술들.
코퍼스 학습, batch construction
최적화, 손실 함수 디자인
unifiy text and box
back to unifying I/O formats
output format; classification, text sequence, box/mask, pixel value
text+box as a case study
box와 text 두개의 output이 있다, 두 정보를 align 한다.
GPV-1
output: text and box
word-box alignments: 영역 인덱스 예측
MDETR, UniT
Avoid explicit detection module?
• Text and box outputs: (box): coordinate regression; (text): heads for classification output
• Word-box alignments: input word index, or OD vocab
Image credit: Mdetr-modulated detection for end-to-end multi-modal understanding, ICCV 2021
UniT: Multimodal Multitask Learning with a Unified Transformer, ICCV 2021
FIBER
Challenge: resolution, computing cost trade-offs
• Coarse-to-fine two-stage vision-language pre-training
• Text and box outputs; Fusion in-the-backbone
textualize visual outputs
Visual (box, mask, pixel) outputs and text outputs (cls, text) are often modeled differently and require different modules:
– Object detector (OD)
– Coordinate regression head
• A single model that unifies text and box(visual) outputs?
Textualize bounding box for object detection [1]
• Text and box outputs: Unified text+box decoding vocabulary
• Word-box alignments: in-line in output sequenc
Model and Training: Encoder-decoder architecture • Single LM objective
Unifying Different VL Tasks • Textualized outputs: text, box, alignment • Multi-task finetuning, capability generalization
Capability Generalization
• MSCOCO; Grounded description • For eval: text, box, alignment • Metrics: captioning
• ImageNet; Object localization • For eval: text, box, alignment • Metrics: accuracy
Textualize Visual Outputs • OFA • Image tokens for pixel outputs
Textualize Visual Outputs • Pix2Seq-V2 • Masks as polygon, Keypoints
Textualize Visual Outputs • Unified-IO
summary and discussion
Take-away Messages • Unified image-text modeling from the view of I/O format • Textualized visual outputs for unified image-text modeling • Format unification is the first step, improving unified models • Grand vision of general-purpose visual understanding
Challenges and Future Directions • How to better show the advantage of unified models – Relationship among tasks; Gain from MTL – New capability showcase; Generalization setups • How to better train the unified models – Balance the degree of unification – Better ways of format unification • Foundation models at what granularity
'AI&ML' 카테고리의 다른 글
[부스트캠프] 인공지능 기초 다지기 - 딥러닝 - PyTorch (1) | 2024.07.03 |
---|---|
[부스트캠프] 인공지능 기초 다지기 - 기초 수학 - 확률론 (1) | 2024.07.03 |
[부스트캠프] 인공지능 기초 다지기 - 기초 수학 - 벡터 (1) | 2024.07.03 |
[코드리뷰] Falmingo (0) | 2024.04.02 |
[computer vision] Vision Transformer(ViT) Clone Code (1) | 2024.03.23 |