Python&Framework

[Python/OCR] Tessearact 오류 정리

ZZJJing 2025. 2. 18. 10:45

로컬에 lama를 설치후

AI에게  이미지를 읽혀보려고 했더니 이런 에러가  발생 !

ERROR : "response":"이 파일은 **Tesseract 오류 참고 파일**입니다. 제목: Tesseract 설치 오류 참고 내용: Tesseract OCR 엔진을 사용하는 프로그램에서 Tesseract를 제대로 설치하거나 시스템 환경변수에 등록하지 않았기 때문에 발생한 오류 메시지입니다. README 파일에서 자세한 정보를 확인할 수 있습니다."  

Tesseract 란?

Tesseract는 오픈 소스 광학 문자 인식(OCR) 엔진입니다. 
OCR 기술은 디지털 이미지 내의 텍스트 문자를 인식하는 데 사용됩니다. 
Tesseract는 다양한 운영 체제에서 사용할 수 있으며, 100개 이상의 언어를 인식할 수 있습니다.

Tesseract는 주로 다음과 같은 기능을 제공합니다:
텍스트 인식: 이미지에서 텍스트를 추출하여 텍스트 파일로 변환합니다.
다양한 출력 형식 지원: 텍스트, HTML, PDF 등 다양한 형식으로 결과를 출력할 수 있습니다.
유니코드(UTF-8) 지원: 여러 언어와 스크립트를 인식할 수 있습니다.
Tesseract는 원래 Hewlett-Packard에서 개발되었으며, 이후 Google에서 후원하여 발전되었습니다. 
현재는 GitHub에서 소스 코드를 확인하고 다운로드할 수 있습니다

🚨 에러 원인: Tesseract 설치 문제

Tesseract를 올바르게 설치하지 않았거나, 시스템 환경변수에 등록되지 않음!

Tesseract OCR은 이미지를 텍스트로 변환하는 라이브러리인데, 로컬에 설치해야 사용할 수 있어.
아래 방법으로 해결해 봐~! 🚀


🛠 해결 방법

1️⃣ Tesseract 설치하기

🔹 Windows 사용자

  1. Tesseract 공식 사이트에서 최신 버전 다운로드

- https://github.com/UB-Mannheim/tesseract/wiki

 

2. 설치 중 "Add Tesseract to system PATH" 옵션 체크

 

더보기

나는 설치 중 Add Tesseract to system PATH 가 보이지 않았다. 

Tesseract 설치 후 "Add Tesseract to system PATH" 옵션이 보이지 않거나 cmd에서 tesseract -v 명령어가 작동하지 않는 경우, 다음 단계를 따라 환경 변수를 수동으로 설정해 보세요:

  1. Tesseract 설치 확인:
    • Tesseract가 설치된 디렉토리를 확인합니다. 기본적으로 C:\Program Files\Tesseract-OCR에 설치됩니다.
  2. 환경 변수 설정:
    • 시스템 속성을 엽니다. (Windows 키 + Pause/Break 키를 누르거나, 제어판 > 시스템 및 보안 > 시스템 > 고급 시스템 설정)
    • 고급 탭에서 환경 변수 버튼을 클릭합니다.
    • 시스템 변수 섹션에서 Path를 찾아 선택한 후 편집 버튼을 클릭합니다.
    • 새로 만들기를 클릭하고 Tesseract가 설치된 디렉토리 경로 (C:\Program Files\Tesseract-OCR)를 추가합니다.
    • 모든 창을 확인 버튼을 눌러 닫습니다.
  3. 명령 프롬프트 재시작:
    • 명령 프롬프트(cmd)를 다시 열고 tesseract -v 명령어를 실행하여 Tesseract가 제대로 설치되었는지 확인합니다.

 

3. 설치 후, 환경변수(PATH)에 추가되었는지 확인

  • cmd에서 아래 명령어 실행: 
  • tesseract -v
  • 정상적으로 버전이 출력되면 설치 완료 ✅

 

🔹 Ubuntu (WSL 포함) 사용자
터미널에서 아래 명령어 실행:

sudo apt update
sudo apt install tesseract-ocr -y

설치 확인:

tesseract -v

🔹 Mac 사용자 (Homebrew 사용)

brew install tesseract

설치 확인:

tesseract -v

2️⃣ pytesseract 라이브러리 설치

설치 후에도 ModuleNotFoundError가 발생하면, 파이썬 라이브러리도 설치해야 해.

pip install pytesseract

3️⃣ Tesseract 경로 직접 지정 (Windows 한정)

(Python에서 pytesseract에 경로 명시적으로 지정)  -> 이걸 해주니 인식을 했다. 

Windows에서는 환경변수 설정이 안 되어 있을 수도 있어.
📌 Tesseract 경로를 직접 추가하면 해결 가능!

🔹 설치된 경로 확인 (C:\Program Files\Tesseract-OCR\tesseract.exe)
🔹 코드에서 pytesseract.pytesseract.tesseract_cmd 설정 추가:

import pytesseract

# Windows에서 Tesseract 실행 파일 경로 설정
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

# OCR 테스트
print(pytesseract.image_to_string("test_image.png"))
 
728x90