파이톨치

[논문 해석] Vision Transformer 본문

독서록

[논문 해석] Vision Transformer

파이톨치 2024. 8. 4. 01:32
728x90

An Imgae Is Worth 16x16 Words:

Transformers For Image Recongnition At Scale 

 

https://arxiv.org/abs/2010.11929

 

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to rep

arxiv.org


개 요 

자연어 처리 영역에서 트랜스포머 구조가 사실상(de-facto) 하나의 기준이 된 반면에,  이것의 컴퓨터 비전 영역으로의 적용은 여전히 한계가 있다. 비전 영역에서 사용하는 기존의 구조를 바꾸지 않은 채로 어텐션 구조를 CNN과 결합해서 사용되거나, CNN에서 특정한 요소를 대체하는 용도로 사용했다. 우리는 이러한 CNN에 대한 의존성이 불필요하며 이미지 패치를 적용시킨 순수한 트랜스포머 구조 자체로 이미지 분류 작업을 잘 수행할 수 있다는 것을 보여준다. (이러한 이미지 패치를 적용시킨 구조를 Vision Transformer라고 한다.) ViT는 큰 데이터에서 사전학습 하고, 여러 중간 사이즈 혹은 작은 이미지 인식 벤치마크로 전이될 때, 기존의 CNN SOTA 모델보다 훌륭한 성능을 보인다. 그러면서 학습시에 적은 컴퓨팅 자원이 필요하는 장점이 있다.  

서 론

self attention에 기초를 둔 구조, 트랜스포머는 NLP 분야에서 대표적인 모델이 되었다. 트랜스포머의 계산적인 효율성과 확장성 덕분에, 100억 파라미터 등의 전례없는 크기의 모델을 학습시키는 것이 가능해졌다. 모델과 데이터셋이 커지지만, 성능의 포화에 대한 신호가 아직까지도 없다.  (당시, 모델 사이즈가 커지면서 계속해서 성능이 오르고 있었음.)

 

하지만, 컴퓨터 비전에서는 트랜스포머보단 CNN이 지배적이다. NLP의 성공에 영감을 받아서, 여러 작업들이 CNN 구조와 self attention을 결합하려 하거나 CNN을 전체적으로 대체하려 했다. 이론적으로(킹론상) 효율적이지만, 후자의 경우 특화된 attention 패턴의 사용 때문에 현대의 하드웨어 가속기에 효과적이지 않다.  그렇기에, 큰 규모의 이미지 인식에서, 클래식 ResNet 구조가 여전히 SOTA를 유지하고 있다. 

 

NLP에서 트랜스포머의 사이즈 커지며 성능이 오르는 것에서 영감을 받아서, 우리는 기본적인 트랜스포머 구조를 변형은 가능한 하지 않은 채로 이미지 분야에 적용시키기로 하였다.  그렇게 함으로써, 우리는 이미지를 여러 개의 패치들로 나누고 트랜스포머의 입력으로써 선형 임베딩 층에 넣어준다. 이미지 패치들은 NLP에서의 토큰과 동일하게 다루어진다. 우리는 모델을 지도 방식으로 학습시킨다. 

 

강한 규제 없이 이미지 넷(ImageNet)과 같은 중간 사이즈의 데이터셋을 학습시킬 때, 이러한 방법은 보통의 정확도를 생성한다. 이러한 낙담적인 결과는 아마 당연한걸지도 모른다. 트랜스포머 CNN에 내재적인 유도적인 편향이 부족하기에 불충분한  양의 데이터로 학습시킬 때 일반화가 잘 되지 않는다. 

 

그러나, 이러한 양상은 모델이 더 큰 데이터셋에서 학습될 때 변한다. 큰 규모가 커지면서 이러한 유도적인 편향을 이긴다. 우리 모델 (ViT)는 충분한 규모의 데이터에서 사전학습 했을 때 휼륭한 성능을 보이며, 적은 데이터 포인트와 함께 작업을 수행한다. 공개 데이터셋 이미지 넷과 in-house JET 300M 데이터셋에서 사전 학습 했을 때, ViT는 다중 이미지 인식 벤치마킄에서 SOTA와 비슷하거나 좋은 성능을 보였다. 

 

728x90

'독서록' 카테고리의 다른 글

[독서록] 마흔에 읽는 니체  (0) 2022.12.19