파이톨치

[CVPR 2022 tutorial] unified image-text modeling 본문

AI&ML

[CVPR 2022 tutorial] unified image-text modeling

파이톨치 2024. 4. 3. 18:22
728x90

unified image-text modeling

image-text taskes overview

1. close-set classification 

간단한 분류 문제, 인풋은 이미지와 텍스트이다. 싱글 모델이 분류한다. 

 

2. open ended text sequence 

관련 task: image captioning, paragraph captioning, open-ended VQA

open-vocab에 대한 예측을 한다. 

3. Box/mask Localization

관련 task: visual grounding, language-based segmentation

4. pixel prediction

관련 task: text-to-image synthesis, text-based image editin

 

why unified image-text modeling? (주의 깊게 봐야 됨)

better perfoermance  

가장 중요한 이유 중 하나이다. 높일 수 있는 이유 중 멀티 테스트 학습과 유사한 능력이 있다는 점이다. 또한, 다른 테스크로부터 추가적인 데이터나 annotation을 얻을 수 있다. 

 

new capabilitys

예를 들어, text + box 를 통해, grounded captioning을 할 수 있고, 이미지 묘사에 대해 더 이해심 있는 모델을 만들 수 있다. visual hallucination도 줄일 수 있다고? 그게 뭔데 또 왜 줄어드는데. 

 

task agnostic unified systems

간단한 framwork 디자인이 가능하다. 

일반화 능력? 완전한 annotion이 필요 없다?

 

unified image text models

Vision-Language pre-training (VLP) 

  • large scale transformer based self supervised pre-training 
  • reuse the same pre-training weight as initialization point (???)
  • separate output head and fine-tune model copies for different downstream tasks 

classification as text generation

# 12-in-1 

single model for 12 tasks (multi-task) 

relatioships among tasks -> better averaged performance 

task-specific heads and objectives 

shared network

 

# VL-T5 

image-text tasks as multimodal-conditional text generation 

avoid task-specific arch design and model copies (모델 복사가 뭔데) 

 

model design and training 

output format unification이 첫번째 단계이다. 어떻게 다른 task를 가질 수 있을지, 잘 동작하는 능력을 가질 수 있을지.

 

1. 부분적으로 파라미터를 공유. 

mdality expert를 섞는다. task-specific한 파라미터를 사용한다. (image-credit, vl-adapter) 

 

2. 네트워크 디자인 모듈.

하나의 모달리티 task를 위해서 하나의 인코더를 사용한다. 조정된 submodules를 다른 테스트에 재사용한다. (BLIP)

 

3. 데이터와 학습 기술들.

코퍼스 학습, batch construction

최적화, 손실 함수 디자인 

 

unifiy text and box  

back to unifying I/O formats

output format; classification, text sequence, box/mask, pixel value 

text+box as a case study 

 

box와 text 두개의 output이 있다, 두 정보를 align 한다. 

 

GPV-1

output: text and box

word-box alignments: 영역 인덱스 예측

 

 MDETR, UniT 

Avoid explicit detection module?

• Text and box outputs: (box): coordinate regression; (text): heads for classification output

• Word-box alignments: input word index, or OD vocab

Image credit: Mdetr-modulated detection for end-to-end multi-modal understanding, ICCV 2021

UniT: Multimodal Multitask Learning with a Unified Transformer, ICCV 2021

 

FIBER

Challenge: resolution, computing cost trade-offs

• Coarse-to-fine two-stage vision-language pre-training

• Text and box outputs; Fusion in-the-backbone

 

textualize visual outputs 

Visual (box, mask, pixel) outputs and text outputs (cls, text) are often modeled differently and require different modules:

– Object detector (OD)

– Coordinate regression head

• A single model that unifies text and box(visual) outputs?

Textualize bounding box for object detection [1]

• Text and box outputs: Unified text+box decoding vocabulary

• Word-box alignments: in-line in output sequenc

Model and Training: Encoder-decoder architecture • Single LM objective

Unifying Different VL Tasks • Textualized outputs: text, box, alignment • Multi-task finetuning, capability generalization

 

Capability Generalization

• MSCOCO; Grounded description • For eval: text, box, alignment • Metrics: captioning

• ImageNet; Object localization • For eval: text, box, alignment • Metrics: accuracy

 

Textualize Visual Outputs • OFA • Image tokens for pixel outputs

Textualize Visual Outputs • Pix2Seq-V2 • Masks as polygon, Keypoints

Textualize Visual Outputs • Unified-IO

summary and discussion

Take-away Messages • Unified image-text modeling from the view of I/O format • Textualized visual outputs for unified image-text modeling • Format unification is the first step, improving unified models • Grand vision of general-purpose visual understanding

 

Challenges and Future Directions • How to better show the advantage of unified models – Relationship among tasks; Gain from MTL – New capability showcase; Generalization setups • How to better train the unified models – Balance the degree of unification – Better ways of format unification • Foundation models at what granularity

728x90