머신러닝을 처음 공부할 때 가장 먼저 헷갈리는 구분이 있습니다.
바로 지도학습과 비지도학습입니다.
여기에 분류, 회귀, 군집화 같은 용어까지 한꺼번에 나오기 시작하면 “도대체 뭐가 뭐지?” 싶어지는 경우가 많습니다.
그런데 이 개념은 한 번만 제대로 잡아두면 꽤 오래 갑니다. 핵심은 아주 단순합니다.
정답이 있으면 지도학습, 정답이 없으면 비지도학습이라고 먼저 생각하면 됩니다.
그리고 그 안에서 분류와 회귀는 지도학습 쪽, 군집화는 비지도학습 쪽 대표 예시라고 보면 훨씬 정리가 쉬워집니다.
#지도학습 #비지도학습 #분류 #회귀 #군집화 #머신러닝기초 #AI입문
먼저 지도학습이란 무엇일까
지도학습은 정답이 붙어 있는 데이터로 학습하는 방식입니다.
예를 들어 이런 데이터가 있다고 해봅시다.
여기서 중요한 건 각 데이터에 이미 정답이 붙어 있다는 점입니다.
이메일이 스팸인지 아닌지, 집값이 얼마였는지, 고객이 실제로 이탈했는지 이런 답을 알고 있는 상태에서 모델이 패턴을 배우는 것이 지도학습입니다.
그래서 지도학습은 쉽게 말하면 문제와 정답을 같이 보여주면서 공부시키는 방식에 가깝습니다.
비지도학습은 무엇이 다를까
비지도학습은 반대로 정답이 없는 데이터를 가지고 학습하는 방식입니다.
즉 “이 데이터는 A 그룹이다” 같은 라벨이 없는 상태에서 데이터 안에 어떤 구조나 패턴이 숨어 있는지를 찾는 데 더 가깝습니다.
예를 들어 쇼핑몰 고객 데이터가 있는데 누가 어떤 유형의 고객인지 미리 정답이 없다면, 비슷한 소비 성향끼리 묶어서 그룹을 찾는 식으로 접근할 수 있습니다.
비지도학습을 쉽게 말하면
문제는 있는데 정답지는 없는 상태에서, 데이터끼리 어떤 공통점이 있는지 스스로 찾아보게 하는 방식이라고 이해하면 쉽습니다.
지도학습 vs 비지도학습, 가장 큰 차이는 정답 유무다
많은 설명이 길어 보이지만, 실제 핵심은 여기서 거의 끝납니다.
| 구분 | 지도학습 | 비지도학습 |
|---|---|---|
| 정답 라벨 | 있음 | 없음 |
| 주요 목적 | 예측, 분류, 추정 | 패턴 발견, 그룹 찾기 |
| 대표 예시 | 분류, 회귀 | 군집화 |
| 쉽게 말하면 | 정답 보고 배우기 | 정답 없이 패턴 찾기 |
그럼 분류는 무엇일까
분류는 지도학습의 대표적인 문제 유형입니다.
이름 그대로 데이터를 어떤 범주로 나누는 것입니다.
예를 들면 이런 식입니다.
분류 예시
- 이 메일은 스팸인가 아닌가
- 이 사진은 고양이인가 강아지인가
- 이 고객은 이탈할 가능성이 높은가 낮은가
- 이 리뷰는 긍정인가 부정인가
핵심은 결과가 숫자 하나가 아니라 미리 정해진 카테고리 중 하나라는 점입니다.
즉 분류는 “이게 어느 그룹에 속하냐”를 맞히는 문제라고 보면 됩니다.
회귀는 무엇일까
회귀도 지도학습의 대표 유형입니다. 다만 분류와 다르게 결과가 범주가 아니라 연속적인 숫자값입니다.
예를 들어 이런 문제가 회귀입니다.
즉 회귀는 “어느 클래스냐”가 아니라 숫자로 된 값을 예측하는 문제입니다.
그래서 분류와 회귀는 둘 다 지도학습이지만, 결과 형식이 다르다고 이해하면 됩니다.
분류와 회귀를 가장 쉽게 구분하는 법
결과가 종류면 분류, 결과가 숫자면 회귀라고 생각하면 거의 맞습니다.
군집화는 왜 비지도학습일까
군집화는 비지도학습의 대표 예시입니다.
군집화는 데이터를 미리 정해진 정답으로 맞히는 게 아니라, 비슷한 것끼리 묶어보는 것에 가깝습니다.
예를 들어 고객 데이터를 분석할 때 누가 VIP 고객인지, 누가 가격 민감형인지, 누가 충성 고객인지 미리 정답 라벨이 없다면 데이터 패턴을 보고 비슷한 고객끼리 그룹을 만드는 방식이 군집화입니다.
군집화 예시
- 쇼핑몰 고객을 소비 패턴별로 나누기
- 뉴스 기사를 주제별로 묶기
- 비슷한 음악 취향의 사용자 묶기
- 비슷한 특성을 가진 상품끼리 그룹 만들기
여기서 중요한 건 “정답을 맞혔다”보다 “데이터 안에 숨어 있는 구조를 발견했다”는 데 의미가 있다는 점입니다.
왜 분류와 군집화가 자주 헷갈릴까
둘 다 뭔가 그룹을 나누는 느낌이 있어서 많이 헷갈립니다. 하지만 둘은 출발점이 다릅니다.
분류는 이미 정답 그룹이 정해져 있습니다. 예를 들어 스팸/정상 메일처럼 답이 있습니다.
반면 군집화는 어떤 그룹이 있는지부터 데이터 안에서 찾아야 합니다. 즉 미리 “이건 A다, 이건 B다”가 붙어 있지 않습니다.
| 구분 | 분류 | 군집화 |
|---|---|---|
| 정답 라벨 | 있음 | 없음 |
| 목적 | 정해진 카테고리 맞히기 | 비슷한 데이터끼리 묶기 |
| 쉽게 말하면 | 정답 보고 시험 풀기 | 정답 없이 비슷한 것끼리 정리하기 |
실무에서는 언제 무엇을 쓸까
이 부분도 간단하게 생각하면 됩니다.
정답이 있는 과거 데이터가 있고, 앞으로 들어올 새로운 데이터에 대해 같은 방식으로 예측하고 싶다면 지도학습을 생각하게 됩니다.
반대로 정답은 없지만 데이터 안에 어떤 패턴이나 그룹이 숨어 있는지 먼저 파악하고 싶다면 비지도학습을 생각하게 됩니다.
실무 기준으로 보면
- 분류 = 스팸 탐지, 이탈 예측, 감정 분석
- 회귀 = 가격 예측, 수요 예측, 매출 예측
- 군집화 = 고객 세분화, 문서 그룹화, 패턴 탐색
처음 배우는 사람은 이렇게 기억하면 쉽다
이 개념은 너무 어렵게 외우려고 할 필요가 없습니다.
가장 쉬운 기준은 딱 세 줄입니다.
한 번에 기억하는 방법
- 지도학습 = 정답이 있는 데이터로 학습
- 분류 / 회귀 = 지도학습의 대표 문제 유형
- 군집화 = 비지도학습의 대표 문제 유형
여기에 한 줄만 더 붙이면 완성입니다.
분류는 종류 맞히기, 회귀는 숫자 맞히기, 군집화는 비슷한 것끼리 묶기
마무리
지도학습과 비지도학습은 머신러닝을 이해하는 가장 기본적인 출발점입니다. 처음에는 용어가 많아 보여도, 결국 핵심은 정답 유무와 결과 형태 차이로 정리됩니다.
정답이 있으면 지도학습, 정답이 없으면 비지도학습.
그리고 그 안에서 분류는 카테고리 맞히기, 회귀는 숫자 예측, 군집화는 비슷한 것끼리 묶기라고 이해하면 전체 구조가 훨씬 선명해집니다.
'머신러닝' 카테고리의 다른 글
| OCR이란 | 이미지에서 글자 추출하는 방법 정리 (0) | 2026.04.18 |
|---|