반응형

합성곱 신경망 3

ViT vs CNN | 최신 비전 모델 차이 쉽게 비교

컴퓨터비전이나 이미지 분류를 공부하다 보면 꼭 한 번은 비교하게 되는 두 구조가 있습니다.바로 CNN과 ViT입니다.CNN은 오래전부터 이미지 처리의 대표 모델로 쓰여 왔고, ViT는 Transformer를 이미지에 적용한 구조로 주목받았습니다. 둘 다 이미지를 잘 다루지만, 이미지를 바라보는 방식 자체가 꽤 다릅니다.가장 짧게 말하면 CNN은 작은 영역의 패턴을 차곡차곡 쌓아가며 보는 방식이고, ViT는 이미지를 패치 단위로 잘라 시퀀스로 보고 self-attention으로 관계를 보는 방식입니다. Keras의 ViT 예제는 ViT가 convolution layer 없이 이미지 패치 시퀀스에 self-attention을 적용한다고 설명합니다. 쉽게 말하면 CNN은 “사진을 부분 부분 훑으면서 특징을 쌓..

머신러닝 2026.05.20

CNN 이미지 분류 | 딥러닝으로 사진 구분하는 원리

딥러닝을 공부하다 보면 이미지 처리에서 가장 자주 보이는 구조가 있습니다.바로 CNN입니다.특히 “고양이와 강아지 사진 구분하기”, “손글씨 숫자 맞히기”, “상품 사진 분류하기” 같은 예제에서는 거의 빠지지 않고 등장합니다.그런데 처음 보면 이런 의문이 생깁니다.“컴퓨터는 사진을 그냥 숫자로 볼 텐데, 어떻게 그게 고양이인지 강아지인지 구분하지?”이 질문에 답하는 구조가 바로 CNN입니다. 가장 짧게 말하면 CNN은 이미지에서 중요한 특징을 단계적으로 뽑아내고, 그 특징을 바탕으로 사진이 무엇인지 분류하는 딥러닝 모델입니다.#CNN #이미지분류 #딥러닝 #컴퓨터비전 #사진분류 #인공신경망 #AI입문이미지 분류란 무엇일까이미지 분류는 말 그대로 사진 전체가 어떤 클래스에 속하는지 맞히는 작업입니다.예를 ..

머신러닝 2026.05.16

CNN이란 | 이미지 처리 모델 구조 쉽게 설명

딥러닝을 공부하다 보면 이미지 분류, 객체 인식, 얼굴 인식 같은 주제에서 거의 빠지지 않고 등장하는 모델이 있습니다.바로 CNN입니다.이름은 익숙한데, 막상 처음 보면 합성곱, 필터, 특징맵, 풀링 같은 단어가 한꺼번에 나와서 구조가 더 복잡하게 느껴질 수 있습니다.그런데 핵심만 먼저 잡으면 CNN은 생각보다 단순하게 이해할 수 있습니다.가장 짧게 말하면 CNN은 이미지 같은 격자 형태의 데이터에서 중요한 패턴을 자동으로 뽑아내는 딥러닝 모델입니다.쉽게 말하면 사람이 눈으로 보면서 “여기엔 모서리가 있네”, “여긴 둥근 모양이네”, “이건 귀처럼 보이네”라고 특징을 찾는 과정을 신경망이 여러 층을 거치며 자동으로 학습하는 구조라고 보면 됩니다.#CNN #합성곱신경망 #이미지처리 #딥러닝 #인공신경망 #..

머신러닝 2026.05.06
반응형