PythonOCR文字识别教程_Tesseract使用详解

12次阅读

需先安装Tesseract引擎再安装pytesseract库；windows下载安装包并勾选“Add to PATH”，macOS用brew install tesseract，linux用apt install tesseract-ocr；随后pip install pytesseract，并按需配置tesseract_cmd路径。

安装Tesseract和pytesseract

要让python调用OCR功能，得先装好Tesseract引擎本身，再装Python封装库pytesseract。

windows用户可去Tesseract官方Wiki页面下载安装包（推荐带训练数据的完整版），安装时勾选“Add to PATH”；macOS用户用Homebrew执行brew install tesseract；Linux（如ubuntu）运行sudo apt install tesseract-ocr libtesseract-dev。

接着在终端或命令行中安装python接口：

pip install pytesseract
如果提示找不到tesseract命令，需手动指定路径，例如在代码开头加：
pytesseract.pytesseract.tesseract_cmd = r'C:Program FilesTesseract-OCRtesseract.exe'（Windows）
或pytesseract.pytesseract.tesseract_cmd = '/usr/local/bin/tesseract'（macos/Linux）

基础文字识别：从图片读取文本

最常用场景是把一张清晰截图或扫描图转成字符串。支持格式包括PNG、JPG、BMP等。

立即学习“Python免费学习笔记（深入）”；

示例代码：

from PIL import Image import pytesseract 打开图片
img = Image.open('receipt.png')
直接识别，默认使用eng语言包text = pytesseract.image_to_string(img) print(text)

注意点：

图片越清晰、文字越规整，识别越准；模糊、倾斜、低对比度会明显降低效果
默认识别英文，若处理中文，需额外下载中文训练数据（chi_sim或chi_tra），并传入lang='chi_sim'
可加config='--psm 6'参数提升单行/规则文本识别率（PSM模式详见下节）

调整OCR识别精度：PSM和OEM参数

Tesseract提供Page Segmentation Mode（PSM）和OCR Engine Mode（OEM）两个核心配置项，直接影响结果质量。

常用PSM值说明：

PSM 3：自动检测页面结构（默认值，适合普通文档）
PSM 6：假设为单块均匀文本（推荐用于截图、票据、标题等）
PSM 7：一行文字（适合验证码、标签、短语）
PSM 8：单词（极少用）
PSM 10：单个字符（用于特殊识别任务）

调用方式：

text = pytesseract.image_to_string(     img,      lang='chi_sim',      config='--psm 6 --oem 3' )

OEM推荐始终用--oem 3（lstm神经网络引擎，Tesseract 4+默认），老版本才考虑OEM 0/1。

预处理图像提升识别率

Tesseract对输入图像很敏感。原始图片常需简单预处理：

转灰度：去掉颜色干扰，img.convert('L')
二值化：增强文字与背景对比，可用PIL的point函数或opencv的threshold
去噪：小斑点可用ImageFilter.MedianFilter()；大面积噪点建议用OpenCV的形态学操作
缩放：文字太小（如8px以下）易漏字，建议将字体高度放大到20–30px再识别
矫正倾斜：用OpenCV检测文字角度后旋转校正，或用skimage.transform.rotate

一个轻量预处理示例：

from PIL import Image, ImageEnhance def preprocess(img): img = img.convert('L')  # 灰度 enhancer = ImageEnhance.Contrast(img) img = enhancer.enhance(2.0)  # 提高对比度 return img.point(lambda x: 0 if x < 128 else 255, '1')  # 二值化clean_img = preprocess(Image.open('id_card.jpg')) text = pytesseract.image_to_string(clean_img, lang='chi_sim', config='--psm 6')

获取更详细识别信息：box、data和confidence

除了纯文本，Tesseract还能返回每个字符/单词的位置、置信度等结构化数据。

image_to_boxes(img)：返回字符级坐标（左下角x,y + 右上角x,y + 字符）
image_to_data(img)：返回DataFrame格式，含level、page_num、block_num、par_num、line_num、word_num、left、top、width、height、conf、text等字段，conf即识别置信度（-1表示跳过）
过滤低置信度结果：df = df[df.conf != -1]，再用df[df.conf > 60]['text'].str.cat(sep=' ')拼接高可信文本

这些输出可用于构建带定位的OCR系统，比如提取发票中的“金额”“日期”字段，或做图文对齐。

发表于：后端开发

2026-01-06

复制链接

如何优雅消除 Pytest 测试中的代码重复

宝塔PHP8.4命令行不识别_让系统识别PHP8.4命令方法【方法】

如何高效提取列表中按首次重复出现顺序排列的所有重复元素

Python多线程如何优雅退出 Python多线程停止和回收机制

VSCode的Peacock插件：为你的不同窗口设置不同颜色

PythonOCR文字识别教程_Tesseract使用详解

安装Tesseract和pytesseract

基础文字识别：从图片读取文本

打开图片

直接识别，默认使用eng语言包

调整OCR识别精度：PSM和OEM参数

预处理图像提升识别率

获取更详细识别信息：box、data和confidence

Golang如何设计CI/CD流水线中的自动化测试

进程 D 状态卡在 [kswapd0] 的 vmpressure 与 swap 压力

如何在不同 HTML/EJS 页面间安全传递表单数据（如用户名）

Go 中的栈变量指针安全机制：编译器自动逃逸分析与堆分配

html如何颜色_HTML设置颜色的多种方式【教程】

Golang中值类型传递的效率问题_Golang值类型性能与优化方法

深入理解MySQL数据库基本概念：存储引擎、事务与ACID特性

PHP如何判断文件是否损坏_PHP文件完整性判断【校验】

C# 备忘录模式实现方法 C#如何实现对象状态的撤销和恢复

PHP定时刷新图片用于监控画面_结合sleep与循环读取目录实现详解【方法】