머신러닝

OCR이란 | 이미지에서 글자 추출하는 방법 정리

mirabo01 2026. 4. 18. 10:06
반응형

문서 스캔본, 영수증 사진, 책 이미지, 간판 사진 같은 걸 보다 보면

“이 안의 글자를 텍스트로 바로 뽑아낼 수 없을까?”

하는 생각이 들 때가 있습니다.

이때 자주 나오는 기술이 바로 OCR입니다.

가장 짧게 말하면 OCR은 이미지 속 글자를 기계가 읽을 수 있는 텍스트로 바꾸는 기술입니다. AWS는 OCR을 “텍스트 이미지(text image)를 machine-readable text format으로 변환하는 과정”이라고 설명합니다. 

 

쉽게 말하면 사람이 눈으로 읽을 수는 있지만 컴퓨터가 바로 편집하거나 검색할 수 없는 이미지 속 글자를, 복사 가능한 문자 데이터로 바꿔주는 과정이라고 이해하면 됩니다.

 

OCR이란 무엇일까

OCR은 Optical Character Recognition의 줄임말입니다. 한국어로는 보통 광학 문자 인식이라고 부릅니다. 

 

핵심은 단순합니다. 사진이나 스캔 문서처럼 이미지 형태로 들어온 글자를 분석해서, 그 안의 문자와 단어를 텍스트 데이터로 바꾸는 것입니다. AWS는 스캔한 양식이나 영수증이 이미지 파일로 저장되면 편집이나 검색이 어렵지만, OCR을 쓰면 텍스트 문서처럼 다룰 수 있다고 설명합니다. 

OCR을 한 줄로 이해하면

보이는 글자를 읽을 수 있는 문자 데이터로 바꾸는 기술입니다.

왜 OCR이 필요한 걸까

이미지 안에 글자가 있어도, 그 상태 그대로는 컴퓨터가 텍스트처럼 활용하기 어렵습니다. 예를 들어 스캔한 계약서나 영수증 사진은 눈으로는 읽을 수 있어도, 일반적인 텍스트 편집기에서 바로 검색하거나 복사하거나 집계하기는 어렵습니다. 

 

OCR은 이 문제를 해결합니다. 이미지에 갇혀 있던 글자를 텍스트로 바꾸면, 검색, 복사, 번역, 분류, 저장, 데이터베이스 입력 같은 후속 작업이 가능해집니다. Azure OCR 문서도 OCR이 제품 라벨, 스크린샷, 표지판, 포스터 같은 이미지에서 텍스트를 추출해 후속 사용자 작업과 콘텐츠 이해를 돕는다고 설명합니다. 

쉽게 말하면

사람이 읽는 글자를
컴퓨터도 활용할 수 있는 글자 데이터로 바꾸는 과정입니다.

OCR은 어떤 식으로 작동할까

입문자 기준으로 아주 단순화하면 OCR은 보통 이런 흐름으로 이해하면 됩니다.

OCR 기본 흐름

  1. 이미지에서 글자 영역을 찾는다
  2. 문장, 줄, 단어, 문자 단위로 구조를 나눈다
  3. 각 영역이 어떤 글자인지 예측한다
  4. 최종적으로 텍스트 결과를 반환한다

실제 상용 서비스도 비슷한 개념으로 동작합니다. Azure OCR은 페이지, 텍스트 줄, 단어와 함께 위치 정보와 confidence score를 제공한다고 설명하고, Azure Document Intelligence Read 모델은 문단, 줄, 단어, 위치, 언어까지 감지한다고 안내합니다. 

즉 OCR은 단순히 “글자만 뽑는 기술”이 아니라, 문서 안의 텍스트 구조를 어느 정도 이해하면서 추출하는 기술로 발전해온 셈입니다. Amazon Textract도 단순 문자 인식을 넘어 forms, tables, layout elements 같은 구조 정보까지 추출한다고 설명합니다. 

OCR이 잘 되는 이미지와 잘 안 되는 이미지는 무엇이 다를까

OCR 성능은 이미지 품질에 크게 영향을 받습니다. Azure의 공식 답변 문서는 OCR이 선명한 인쇄 텍스트, 좋은 해상도, 좋은 대비에서 높은 정확도를 보이지만, 필기체, 장식적인 폰트, 손상된 이미지에서는 성능이 떨어질 수 있다고 설명합니다. 

 

즉 글자가 또렷하고, 배경과 대비가 좋고, 기울어지지 않았고, 해상도가 충분할수록 OCR이 더 잘 동작하는 편입니다.

OCR이 잘 되는 조건

  • 글자가 선명함
  • 해상도가 충분함
  • 배경과 글자 대비가 좋음
  • 왜곡, 기울어짐, 그림자가 적음

반대로 손글씨가 심하게 흘려 쓰였거나, 사진이 어둡거나, 배경이 복잡하거나, 글자가 휘어져 있으면 OCR 난도가 올라갑니다. 

문서 OCR과 일반 이미지 OCR은 왜 구분해서 보나

OCR은 다 같은 것처럼 보이지만, 실제로는 문서 중심 OCR과 일반 이미지 OCR을 구분해서 보는 편이 이해하기 쉽습니다.

Azure 문서는 텍스트가 많은 PDF, Office 파일, 스캔 문서에는 Document Intelligence Read OCR 모델을 권장하고, 제품 라벨, 사용자 생성 이미지, 스크린샷, 도로 표지판, 포스터 같은 “문서가 아닌 이미지”에는 Azure Vision OCR을 설명합니다. 

구분 문서 OCR 일반 이미지 OCR
주요 대상 PDF, 스캔 문서, 양식, 표 간판, 라벨, 포스터, 스크린샷
관심 포인트 문단, 표, 필드, 레이아웃 짧은 텍스트, 실시간 추출
예시 계약서, 영수증, 청구서 도로 표지판, 제품 라벨

즉 OCR은 하나의 기술이지만, 어떤 입력을 다루느냐에 따라 텍스트만 뽑는 수준인지, 문서 구조까지 이해해야 하는지 차이가 커집니다. 

OCR이 실제로 많이 쓰이는 곳은 어디일까

OCR은 생각보다 훨씬 다양한 곳에 쓰입니다. AWS Textract는 금융 보고서, 의료 기록, 세금 양식 같은 문서에서 인쇄 텍스트와 필기 텍스트를 탐지할 수 있다고 설명하고, 텍스트, forms, tables 추출까지 지원한다고 안내합니다. 

 

대표 활용 예

  • 영수증 금액 추출
  • 계약서, 청구서 텍스트 변환
  • 명함 정보 자동 입력
  • 책 스캔본 검색 가능 문서화
  • 스크린샷 속 텍스트 복사
  • 표와 양식 데이터 자동 추출

결국 OCR의 장점은 사람이 손으로 옮기던 일을 자동화해서, 문서 처리와 데이터 입력 비용을 크게 줄일 수 있다는 데 있습니다. AWS는 수작업 추출이나 단순 OCR 소프트웨어의 한계를 줄이고 문서 처리 자동화를 빠르게 구현할 수 있다고 설명합니다. 

요즘 OCR은 단순 문자 인식만 하는 걸까

예전에는 OCR을 “글자 읽기” 정도로만 생각하기 쉬웠지만, 최근 서비스들은 훨씬 더 많은 것을 합니다.

Amazon Textract는 OCR을 넘어 text, handwriting, layout elements, forms, tables, data extraction까지 지원한다고 설명하고, Azure 쪽도 paragraphs, lines, words, locations, languages 같은 구조 정보를 함께 제공한다고 설명합니다. 

즉 최근 OCR은 단순 문자 추출을 넘어 문서 이해(document understanding) 쪽으로 많이 확장된 상태라고 보면 됩니다.

처음엔 OCR을

“이미지에서 글자를 꺼내는 기술”로 이해하고,
그다음 단계에서
“문서 구조까지 읽는 기술로 확장되고 있다”고 보면 자연스럽습니다.

처음 배우는 사람은 이렇게 이해하면 쉽다

OCR은 용어 자체보다 실제 흐름으로 이해하는 편이 쉽습니다.

추천 이해 순서

  1. 이미지 속 글자는 바로 편집 가능한 텍스트가 아니라는 점 이해하기
  2. OCR이 그 글자를 문자 데이터로 바꾼다는 점 이해하기
  3. 문서 OCR과 일반 이미지 OCR 차이 구분하기
  4. 텍스트 추출 이후 검색, 분류, 자동입력 같은 활용 연결하기
  5. 최근 OCR은 표, 양식, 레이아웃까지 읽는다는 점 보기

처음 배우는 사람은 이렇게 기억하면 쉽다

너무 넓게 외우지 않아도 됩니다. 아래 세 줄만 먼저 잡아도 큰 그림은 거의 정리됩니다.

가장 쉬운 요약

  • OCR = 이미지 속 글자를 텍스트로 변환
  • 문서 OCR = PDF, 영수증, 양식처럼 구조가 있는 문서 처리
  • 이미지 OCR = 간판, 라벨, 스크린샷처럼 일반 이미지 속 글자 추출

여기에 한 줄만 더 붙이면 거의 끝입니다.

OCR은 이미지 안에 갇혀 있는 글자를, 검색하고 복사하고 분석할 수 있는 데이터로 바꾸는 기술

마무리

OCR은 겉보기에는 단순히 글자를 읽는 기술처럼 보이지만, 실제로는 문서 자동화, 데이터 추출, 검색 가능 문서화, 업무 효율화까지 이어지는 아주 실용적인 기술입니다. 

특히 최근 OCR은 인쇄 텍스트뿐 아니라 필기, 표, 양식, 레이아웃까지 다루면서 단순 문자 인식을 넘어 문서 이해 기술로 확장되고 있습니다. 

처음에는 어렵게 생각하지 말고, “사진 속 글자를 복사 가능한 텍스트로 바꾸는 기술”이라고 이해하는 것이 가장 좋습니다.

반응형