将文本文件按每三行合并为一行并保存为CSV格式

6次阅读

本文介绍如何将ocr识别生成的、按行排列的地址信息（如姓名、地址、城市州邮编）自动整理为结构化的csv文件，支持直接从ocr文本处理，无需中间文本文件，避免手动编辑。

在OCR后处理流程中，常见场景是：每组地址信息被识别为连续的三行（例如：姓名、街道地址、城市/州/邮编），但原始输出是扁平化的纯文本行序列。若每次识别后都先写入.txt再二次转换，不仅冗余，还易引入编码、换行或逗号干扰等问题。理想方案是在tess_address()函数中直接完成分组与csv写入，跳过中间文本文件。

以下是一个完整、健壮且可直接集成的解决方案：

✅ 核心逻辑说明

清理与分割：对pytesseract.image_to_string()返回的text，用splitlines()切分为行，并移除每行末尾及内部多余的逗号（避免干扰CSV结构）；
分组校验：确保总行数能被3整除（即每组含“姓名、地址、城市州邮编”），否则抛出明确错误便于调试；
批量重组：使用步长为3的切片（lines[i:i+3]）将线性列表转为二维结构——每子列表代表一个CSV记录；
安全写入CSV：通过标准csv.writer写入，自动处理字段内逗号、引号和换行等边缘情况（比手动print(…, file=…)更可靠）。

✅ 集成后的 tess_address() 函数（推荐替换原函数）

import os import csv import re import pytesseract  def tess_address():     input_dir = "address"     output_csv = "address_output.csv"      files = sorted(os.listdir(input_dir))      # 初始化所有OCR行的容器（全局收集，避免逐图覆盖）     all_lines = []      for image in files:         image_path = os.path.join(input_dir, image)         text = pytesseract.image_to_string(image_path)          # 清理：移除所有逗号（防止干扰CSV解析），并分割为行         clean_lines = [re.sub(r",", "", line.strip()) for line in text.splitlines() if line.strip()]         all_lines.extend(clean_lines)      # 校验：必须是3的倍数（每组3个字段）     if len(all_lines) % 3 != 0:         raise ValueError(f"OCR共提取 {len(all_lines)} 行，不是3的倍数，请检查识别结果是否完整或存在空行")      # 按每3行分组     rows = [all_lines[i:i+3] for i in range(0, len(all_lines), 3)]      # 写入CSV（注意：newline='' 是csv模块必需参数，避免windows下空行）     with open(output_csv, "w", newline="", encoding="utf-8") as f:         writer = csv.writer(f)         writer.writerows(rows)      print(f"✅ 已成功生成 {len(rows)} 条记录，保存至 {output_csv}")

⚠️ 关键注意事项

不要重复打开文件写入：原代码中 print(…, file=open(“address.txt”, ‘a’)) 在循环内反复调用 open()，既低效又易因编码/缓冲问题导致乱码；新方案统一收集后批量写入，更稳定。
编码与换行：csv.writer 必须指定 newline=””，否则在windows系统中可能产生双换行（rnrn）。
空行过滤：if line.strip() 确保忽略OCR识别出的空白行或仅含空格的行，提升鲁棒性。
错误定位友好：assert 或 raise ValueError 明确提示行数异常，便于快速排查OCR漏识别或图像质量问题。

✅ 输出效果示例

输入OCR文本（经清理后）：

John Doe 123 Main St New York NY 10001 Jane Smith 456 Oak Ave Los Angeles CA 90210

生成的 address_output.csv 内容（可用excel或pandas.read_csv()直接读取）：

John Doe,123 Main St,"New York NY 10001" Jane Smith,456 Oak Ave,"Los Angeles CA 90210"

注：csv.writer 自动为含空格的字段加引号，确保语义无歧义。

通过此方案，你彻底摆脱了“先生成txt → 手动编辑 → 再转csv”的繁琐链路，实现OCR到结构化数据的一站式、可复现、易维护的自动化处理。

发表于：web前端

2026-01-28

# ai # csv # csv文件 # excel # if # ocr # pandas # print # raise # win # windows # windows系统 # 切片 # 循环 # 排列 # 编码 # 自动化

复制链接

如何为多个同名类元素批量绑定事件监听器并动态控制弹窗

HTML透明颜色代码怎么让列表项透明_ul或li透明背景的技巧【指南】

HTML如何连接鼠标悬停事件_交互效果实现方法【指南】

如何准确统计玩家在游戏服务器上的累计在线时长

如何设置表存储引擎_mysql engine配置

将文本文件按每三行合并为一行并保存为CSV格式

✅ 核心逻辑说明

✅ 集成后的 tess_address() 函数（推荐替换原函数）

⚠️ 关键注意事项

✅ 输出效果示例

Go如何限制文件上传大小_Go上传安全控制方式

HTML5数据属性怎么识别_data-*自定义属性判断【属性】

如何在 Nginx 中实现仅允许指定路径访问，其余路径返回 404

如何实现单搜索框同步驱动双网站 iframe 并行搜索

c3p0-config.xml是什么如何用它来配置数据库连接池

sudoers 配置语法错误导致 sudo 失效的 visudo -c 与恢复

如何高效并发处理嵌套结构的 API 请求（Python 多线程实践）

Linux ext4 与 xfs 的运维选择策略

3分钟看懂：2026 欧易(OKX) 新手注册、实名认证与买币保姆级教程

multipath “device busy” 无法 multipath -f 的 dmsetup remove 强制写法