파이톨치

[BoostCamp AI Tech] Transposed Convolution 본문

카테고리 없음

[BoostCamp AI Tech] Transposed Convolution

파이톨치 2024. 11. 11. 14:55
728x90

Transposed Convolution(Transpose Convolution)는 일반적인 Convolution과 반대 방향으로 동작하는 연산으로, 이미지 또는 피처 맵을 업샘플링하여 크기를 증가시키는 데 사용됩니다. 이 방식은 세그멘테이션과 같은 작업에서 저해상도 특징 맵을 원본 크기로 복원해야 할 때 유용합니다. Transposed Convolution은 주로 ConvNet에서 다운샘플링된 특징 맵을 입력 이미지와 동일한 해상도로 복원하는 데 활용됩니다.


Transposed Convolution의 동작 방식

Transposed Convolution은 기존 Convolution의 역방향 연산을 통해 이미지나 피처 맵을 확대하는 방식입니다. 필터를 피처 맵의 각 위치에 겹치지 않게 적용하는 대신, 각 픽셀마다 필터의 값을 반대 방향으로 복사하고 중첩된 영역에 더해가는 방식입니다. 결과적으로, 출력 이미지의 크기를 증가시키면서 기존의 위치 정보를 활용하여 원본 형태를 복원하게 됩니다.

Transposed Convolution과 일반 Convolution의 차이

  • 일반 Convolution: 입력에 필터를 적용하여 크기를 줄이며 특징을 추출
  • Transposed Convolution: 작은 크기의 특징 맵을 더 큰 크기로 확장하며, 다운샘플링된 특징을 다시 원본 해상도로 복원

Transposed Convolution 예시

왜 "Transposed"인가?

Transposed라는 이름은 행렬의 전치(transpose) 연산에서 유래합니다. Convolution에서 사용하는 필터의 가중치를 Transpose하여 행렬의 크기를 확장하는 방식이기 때문에 "Transposed"라는 이름이 붙었습니다.

-> stride를 바꾸거나 하는 방식으로 업스케일이 가능함. 

무엇을 학습하는가?

Transposed Convolution을 통해 업샘플링을 하는 과정에서 모델이 학습하는 것은 어떤 특징을 확장해야 할지에 대한 정보입니다. 예를 들어, 이미지 분할(Segmentation) 문제에서는 저해상도의 특징 맵고해상도로 복원해야 하므로, Transposed Convolution이 중요합니다.

학습 과정

  1. 가중치 학습: Transposed Convolution에서 필터(커널)는 학습 가능한 파라미터입니다. 모델은 각 필터의 가중치를 업데이트하여 입력 피처 맵에서 중요한 정보를 확장하는 방법을 학습합니다.
  2. 업샘플링: 일반 Convolution은 다운샘플링을 하는 반면, Transposed Convolution은 특징을 확장하여 더 높은 해상도로 업샘플링합니다. 이 과정에서 픽셀 간의 관계구조적 특징을 복원하려고 합니다.
728x90