머신러닝

분류와 회귀 차이 | 지도학습에서 가장 먼저 이해할 개념

mirabo01 2026. 4. 23. 10:29
반응형

머신러닝을 처음 공부하다 보면 꽤 빨리 만나게 되는 단어가 있습니다.

바로 분류회귀입니다.

둘 다 지도학습에 들어간다고 하는데, 막상 처음 들으면 “둘 다 예측하는 거 아닌가?” “도대체 뭐가 다른 거지?” 하고 헷갈리기 쉽습니다.

사실 이 개념은 처음에만 낯설 뿐, 한 번만 기준을 제대로 잡아두면 꽤 오래 갑니다.

가장 쉽게 말하면 이렇습니다.

결과가 종류면 분류, 결과가 숫자면 회귀입니다.

이 한 줄만 먼저 잡고 들어가면 지도학습 구조를 이해하는 속도가 훨씬 빨라집니다.

#분류와회귀차이 #지도학습 #머신러닝기초 #분류 #회귀 #AI입문 #데이터분석

먼저 지도학습이 무엇인지부터 짚고 가자

분류와 회귀는 둘 다 지도학습에 속합니다.

지도학습은 쉽게 말해 정답이 붙어 있는 데이터로 학습하는 방식입니다.

예를 들어 이런 식입니다.

지도학습 예시

이메일 내용 → 스팸 여부
집 크기, 위치, 연식 → 집값
고객 행동 데이터 → 이탈 여부

여기서 중요한 건 이미 정답을 알고 있다는 점입니다.

메일이 스팸인지 아닌지, 집값이 얼마였는지, 고객이 실제로 이탈했는지 이런 결과를 알고 있는 상태에서 모델이 입력과 정답 사이의 관계를 배우는 것이 지도학습입니다.

그리고 이 지도학습 안에서 가장 대표적인 두 가지 문제가 바로 분류와 회귀입니다.

분류는 무엇일까

분류는 데이터를 어떤 범주나 클래스 중 하나로 나누는 문제입니다.

즉 결과가 숫자 하나가 아니라, 미리 정해진 카테고리 중 하나로 나옵니다.

예를 들면 이런 식입니다.

분류 예시

  • 이 메일은 스팸인가 정상 메일인가
  • 이 사진은 고양이인가 강아지인가
  • 이 리뷰는 긍정인가 부정인가
  • 이 고객은 이탈할 가능성이 높은가 낮은가

핵심은 결과가 몇 가지 선택지 중 하나라는 점입니다.

그래서 분류는 쉽게 말하면 “이 데이터가 어디에 속하는지 맞히는 문제”라고 보면 됩니다.

회귀는 무엇일까

회귀도 지도학습이지만, 분류와는 출력 형태가 다릅니다.

회귀는 데이터를 보고 연속적인 숫자값을 예측하는 문제입니다.

예를 들면 이런 식입니다.

회귀 예시

  • 이 집의 가격은 얼마일까
  • 내일 기온은 몇 도쯤일까
  • 이번 달 매출은 얼마나 나올까
  • 이 고객은 한 달 안에 얼마를 구매할까

여기서는 결과가 스팸/정상처럼 딱 끊어진 범주가 아니라, 23도, 5억 2천만 원, 127만 원 같은 연속적인 숫자로 나옵니다.

그래서 회귀는 “정확한 값 또는 값의 크기를 예측하는 문제”라고 이해하면 쉽습니다.

분류와 회귀의 가장 큰 차이

결국 둘의 핵심 차이는 출력값의 형태입니다.

구분 분류 회귀
출력 형태 범주, 클래스 연속적인 숫자값
대표 질문 이건 무엇인가? 이건 얼마인가?
예시 스팸 분류, 감정 분류 가격 예측, 수요 예측
쉽게 말하면 종류 맞히기 숫자 맞히기

그래서 분류와 회귀를 구분할 때는 복잡하게 생각할 필요 없이 결과가 카테고리인지 숫자인지만 먼저 보면 됩니다.

둘 다 예측인데 왜 굳이 나눌까

이 부분이 처음엔 제일 헷갈립니다. 분류도 미래를 예측하고, 회귀도 값을 예측합니다. 둘 다 넓게 보면 예측입니다.

그런데 머신러닝에서는 무엇을 예측하느냐에 따라 접근 방식이 달라집니다.

예를 들어 스팸 여부를 맞히는 문제에서는 결과가 몇 개의 클래스 중 하나여야 하므로 모델이 “어느 쪽에 더 가까운가”를 판단하는 방식이 중요합니다.

반면 집값을 맞히는 문제에서는 결과가 자연스럽게 연속적인 숫자여야 하므로 값의 크기와 오차를 어떻게 줄일지가 중요해집니다.

핵심 포인트

둘 다 예측 문제이긴 하지만, 예측 결과의 형태가 다르기 때문에 문제 정의와 평가 방식도 달라집니다.

분류는 언제 쓰고, 회귀는 언제 쓸까

실무에서는 생각보다 기준이 단순합니다.

결과를 몇 가지 등급이나 범주로 나누고 싶다면 분류를 생각합니다. 반대로 정확한 수치나 크기를 알고 싶다면 회귀를 생각합니다.

실무 예시로 보면
  • 분류 = 스팸 필터, 질병 진단 여부, 리뷰 긍정/부정, 고객 이탈 여부
  • 회귀 = 집값 예측, 매출 예측, 온도 예측, 배달 시간 예측

그래서 문제를 볼 때 “이게 어느 종류인지 알고 싶은가” 아니면 “정확한 값이 얼마인지 알고 싶은가” 이 질문만 던져도 꽤 많이 정리됩니다.

헷갈리기 쉬운 경우도 있다

어떤 문제는 얼핏 보면 분류인지 회귀인지 애매해 보일 때가 있습니다.

예를 들어 고객 신용등급을 예측한다고 해봅시다. 결과가 A, B, C, D처럼 나뉜다면 분류입니다. 하지만 신용점수를 1점 단위 숫자로 예측한다면 회귀에 더 가깝습니다.

즉 같은 분야 문제라도 출력을 어떻게 정의하느냐에 따라 분류가 될 수도 있고 회귀가 될 수도 있습니다.

중요한 건 데이터 분야가 아니라

모델이 최종적으로 무엇을 내놓아야 하느냐입니다.

처음 배우는 사람은 이렇게 기억하면 쉽다

너무 어렵게 외우려고 하지 않아도 됩니다. 아래처럼만 기억해도 충분히 출발점이 됩니다.

가장 쉬운 구분법

  • 분류 = 종류를 맞히는 문제
  • 회귀 = 숫자를 예측하는 문제

여기에 한 줄만 더 붙이면 더 좋습니다.

분류는 “무엇인가?”, 회귀는 “얼마인가?”를 묻는 문제

이 기준만 익혀도 지도학습의 가장 기본적인 축은 거의 잡혔다고 봐도 됩니다.

마무리

분류와 회귀는 둘 다 지도학습이지만, 출력 결과가 다르기 때문에 문제를 바라보는 방식도 달라집니다.

분류는 데이터를 어떤 범주에 넣을지 판단하는 것이고, 회귀는 연속적인 숫자값을 예측하는 것입니다.

머신러닝을 처음 공부할 때는 알고리즘 이름부터 외우기보다, 먼저 “이 문제가 분류인지 회귀인지”를 구분하는 감각부터 익히는 편이 훨씬 중요합니다.

 

반응형