Python 文本编码错误排查技巧

7次阅读

unicodedecodeerror 快速定位需检查错误顶层的 open() 或 .read() 调用,确认文件路径及 encoding 是否显式指定;推荐统一使用 encoding=’utf-8-sig’ 处理 utf-8 文件(自动剥离 bom)。

Python 文本编码错误排查技巧

UnicodeDecodeError 怎么快速定位是哪行出的错

pythonUnicodeDecodeError 时,错误信息里通常只说“‘utf-8’ codec can’t decode byte”,但不会告诉你具体是哪个文件、哪一行、甚至哪个变量触发的。根本原因往往是:你用 open() 打开文件时没指定 encoding,而系统默认编码(比如 windows 的 cp1252)和文件真实编码(比如 UTF-8 带 BOM 或 GBK)不匹配。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 别依赖 open('xxx.txt') 的默认行为,**所有文本读取必须显式写 encoding='utf-8'**(或根据实际确认的编码)
  • 遇到报错,先看错误栈最上面一层的 open().read() 调用,重点检查那个文件路径是否被其他地方以不同编码打开过
  • chardet 快速探测(注意:它只是启发式猜测,不保证 100% 准确):
    import chardet<br>with open('bad.txt', 'rb') as f:<br>    raw = f.read(10000)<br>print(chardet.detect(raw))
  • Windows 上常见坑:记事本保存的 UTF-8 文件带 BOM,utf-8 编码能读,但 utf-8-sig 更稳妥(会自动剥离 BOM)

requests 返回的 response.text 为什么乱码

不是所有 http 响应都按 Content-Type 里的 charset 正确声明编码,requests 默认会按响应头推断,但经常失效——尤其是中文网站返回 text/html; charset=gbk 却没写全,或压根没写 charset,requests 就会 fallback 到 ISO-8859-1,导致中文变乱码。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 别直接用 r.text,优先用 r.content + 显式解码:
    r = requests.get(url)<br>r.encoding = 'gbk'  # 或 'utf-8'、'gb2312'<br>text = r.text
  • 如果响应头没给 charset,且 r.apparent_encoding 返回 None 或明显不对(比如 'ISO-8859-1'),就手动设 r.encoding
  • 避免用 r.json() 处理非标准 JSON 响应(比如返回的是 GBK 编码的 JSON 字符串),先解码再 json.loads()

subprocess.run() 拿到的 stdout 为啥是 bytes 不是 str

Python 3 中 subprocess.run() 默认返回 bytes 类型的 stdoutstderr,不是字符串。这不是 bug,是设计:因为子进程输出的原始字节流可能包含任意编码,Python 不敢擅自 decode。但很多人直接对 result.stdout.split() 或正则匹配,结果报 AttributeError: 'bytes' Object has no attribute 'split'

实操建议:

立即学习Python免费学习笔记(深入)”;

  • text=True 参数(Python 3.7+ 推荐):subprocess.run(cmd, text=True, capture_output=True),这样 stdout 就是 str
  • 旧版本或需要控制编码时,用 encoding='utf-8'(注意:该参数隐含 text=True
  • 如果必须处理 bytes,记得先 decode:result.stdout.decode('utf-8', errors='ignore')errors='ignore' 可避免部分乱码中断流程
  • Windows 下 cmd 输出可能是 cp936(GBK),linux 下一般是 utf-8,跨平台脚本要留意

csv 模块读写中文时编码错乱的根源

csv 模块本身不处理编码,它只负责解析逗号分隔结构。所以如果你用 open('data.csv') 打开再传给 csv.reader(),实际解码工作仍在 open() 那一层——一旦这里编码设错,后面全错,而且错误常表现为第一行正常、后面乱码,或者某列突然截断。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 读 CSV:必须用 open(..., encoding='utf-8-sig')utf-8-sig 自动处理 BOM)
  • 写 CSV:同样要指定 encoding,且推荐用 newline=''(否则 Windows 下可能多空行):
    with open('out.csv', 'w', newline='', encoding='utf-8-sig') as f:<br>    writer = csv.writer(f)
  • 别用 pandasread_csv() 默认参数读纯文本 CSV,它内部用 C engine 时可能忽略 encoding,显式传 encoding='utf-8-sig'
  • excel 打开 UTF-8 CSV 乱码?那是 Excel 的锅——它默认按系统编码读,解决办法是用 utf-8-sig 写,或改用 gbk(兼容性更好,但非国际标准)

编码问题最麻烦的不是不会解,而是错误不总在你写的那行爆发——它可能藏在某个第三方库的默认 open、某个没声明 encoding 的临时文件、甚至环境变量 PYTHONIOENCODING 被意外覆盖。查的时候,盯住每个 open()、每个 requests.get()、每个 subprocess 调用,一个一个确认 encoding 是否明确、是否合理。

text=ZqhQzanResources