
本文介绍如何将ocr识别生成的、按行排列的地址信息(如姓名、地址、城市州邮编)自动整理为结构化的csv文件,支持直接从ocr文本处理,无需中间文本文件,避免手动编辑。
在OCR后处理流程中,常见场景是:每组地址信息被识别为连续的三行(例如:姓名、街道地址、城市/州/邮编),但原始输出是扁平化的纯文本行序列。若每次识别后都先写入.txt再二次转换,不仅冗余,还易引入编码、换行或逗号干扰等问题。理想方案是在tess_address()函数中直接完成分组与csv写入,跳过中间文本文件。
以下是一个完整、健壮且可直接集成的解决方案:
✅ 核心逻辑说明
- 清理与分割:对pytesseract.image_to_string()返回的text,用splitlines()切分为行,并移除每行末尾及内部多余的逗号(避免干扰CSV结构);
- 分组校验:确保总行数能被3整除(即每组含“姓名、地址、城市州邮编”),否则抛出明确错误便于调试;
- 批量重组:使用步长为3的切片(lines[i:i+3])将线性列表转为二维结构——每子列表代表一个CSV记录;
- 安全写入CSV:通过标准csv.writer写入,自动处理字段内逗号、引号和换行等边缘情况(比手动print(…, file=…)更可靠)。
✅ 集成后的 tess_address() 函数(推荐替换原函数)
import os import csv import re import pytesseract def tess_address(): input_dir = "address" output_csv = "address_output.csv" files = sorted(os.listdir(input_dir)) # 初始化所有OCR行的容器(全局收集,避免逐图覆盖) all_lines = [] for image in files: image_path = os.path.join(input_dir, image) text = pytesseract.image_to_string(image_path) # 清理:移除所有逗号(防止干扰CSV解析),并分割为行 clean_lines = [re.sub(r",", "", line.strip()) for line in text.splitlines() if line.strip()] all_lines.extend(clean_lines) # 校验:必须是3的倍数(每组3个字段) if len(all_lines) % 3 != 0: raise ValueError(f"OCR共提取 {len(all_lines)} 行,不是3的倍数,请检查识别结果是否完整或存在空行") # 按每3行分组 rows = [all_lines[i:i+3] for i in range(0, len(all_lines), 3)] # 写入CSV(注意:newline='' 是csv模块必需参数,避免windows下空行) with open(output_csv, "w", newline="", encoding="utf-8") as f: writer = csv.writer(f) writer.writerows(rows) print(f"✅ 已成功生成 {len(rows)} 条记录,保存至 {output_csv}")
⚠️ 关键注意事项
- 不要重复打开文件写入:原代码中 print(…, file=open(“address.txt”, ‘a’)) 在循环内反复调用 open(),既低效又易因编码/缓冲问题导致乱码;新方案统一收集后批量写入,更稳定。
- 编码与换行:csv.writer 必须指定 newline=””,否则在windows系统中可能产生双换行(rnrn)。
- 空行过滤:if line.strip() 确保忽略OCR识别出的空白行或仅含空格的行,提升鲁棒性。
- 错误定位友好:assert 或 raise ValueError 明确提示行数异常,便于快速排查OCR漏识别或图像质量问题。
✅ 输出效果示例
输入OCR文本(经清理后):
John Doe 123 Main St New York NY 10001 Jane Smith 456 Oak Ave Los Angeles CA 90210
生成的 address_output.csv 内容(可用excel或pandas.read_csv()直接读取):
John Doe,123 Main St,"New York NY 10001" Jane Smith,456 Oak Ave,"Los Angeles CA 90210"
注:csv.writer 自动为含空格的字段加引号,确保语义无歧义。
通过此方案,你彻底摆脱了“先生成txt → 手动编辑 → 再转csv”的繁琐链路,实现OCR到结构化数据的一站式、可复现、易维护的自动化处理。