컴퓨터비전이나 이미지 분류를 공부하다 보면 꼭 한 번은 비교하게 되는 두 구조가 있습니다.바로 CNN과 ViT입니다.CNN은 오래전부터 이미지 처리의 대표 모델로 쓰여 왔고, ViT는 Transformer를 이미지에 적용한 구조로 주목받았습니다. 둘 다 이미지를 잘 다루지만, 이미지를 바라보는 방식 자체가 꽤 다릅니다.가장 짧게 말하면 CNN은 작은 영역의 패턴을 차곡차곡 쌓아가며 보는 방식이고, ViT는 이미지를 패치 단위로 잘라 시퀀스로 보고 self-attention으로 관계를 보는 방식입니다. Keras의 ViT 예제는 ViT가 convolution layer 없이 이미지 패치 시퀀스에 self-attention을 적용한다고 설명합니다. 쉽게 말하면 CNN은 “사진을 부분 부분 훑으면서 특징을 쌓..