Python字符串编码处理_utf与字符集解析【指导】

10次阅读

python字符串编码核心是区分str（Unicode）与bytes，明确字符集作用；默认UTF-8但需显式指定encoding，注意bom、系统locale差异及乱码溯源方法。

Python中字符串编码问题常出现在读写文件、网络通信或处理非ASCII文本时，核心在于分清str（Unicode字符串）和bytes（字节序列）的区别，以及明确字符集（如UTF-8、GBK）在编码/解码过程中的作用。

Python 3 中，源码文件默认以UTF-8编码读取，str类型内部统一使用Unicode表示。当你用.encode()转为字节时，若不指定编码，默认就是UTF-8；同理，.decode()也默认按UTF-8解析字节。

显式指定更安全：哪怕默认是UTF-8，也建议写明s.encode('utf-8')，避免环境差异导致隐式错误
中文windows下容易踩坑：记事本保存的“UTF-8”可能带BOM（b'xefxbbxbf'），用open(..., encoding='utf-8-sig')可自动跳过
不要用bytes.decode()不加参数——它依赖系统locale，在linux/macOS可能是UTF-8，Windows可能是GBK，极易出错

乱码本质是“用错了字符集去解码字节”。比如一段GBK编码的字节被当成UTF-8解码，就会出现xe4xb8xadxe6x96x87变成ä¸xadæx96x87这类问号或方块。

用open()时，只要涉及文本（非b模式），就必须传encoding参数。否则Python会用locale.getpreferredencoding()，这在跨平台时极不稳定。

写文件：确保open('out.txt', 'w', encoding='utf-8')，避免中文在Windows上变乱码
读文件：如果不确定编码，先用rb模式读字节，再尝试不同.decode()，成功后再转成str处理
csv/jsON等格式库通常也支持encoding参数，别漏掉——json.load(f, encoding='utf-8')已废弃，应改用open(..., encoding='utf-8')再传给json.load()

requests.get().text会根据http头或html meta自动推断编码，但不可靠；sys.stdout.write()则受终端编码限制（Windows cmd默认GBK，PowerShell可能UTF-8）。

requests：优先用r.content.decode('utf-8')或r.content.decode(r.apparent_encoding)，比r.text更可控
print输出中文异常？检查终端是否支持UTF-8，或临时设export PYTHONIOENCODING=utf-8（Linux/macOS）
日志记录时，Logging模块默认用系统编码，建议配置handlers时指定encoding='utf-8'

发表于：后端开发

2026-01-12

复制链接

当一个Composer包的依赖定义有误时，如何临时覆盖它？ (inline-alias)

如何使用 python-docx 为表格定位最近的上级标题（Heading）