Linux 怎么查文件编码？怎么转 UTF-8？

2次阅读

查文件编码首选file -i和enca -L zh，转UTF-8必须用iconv明确指定-f源编码和-t UTF-8，避免乱码；批量处理前需统一确认编码，混编文件须单独检测。

linux 查文件编码主要靠 file 和 iconv，转 UTF-8 用 iconv 最直接。关键不是“能不能转”，而是“转得对不对”——得先确认原编码，再选对目标和参数，否则可能乱码更严重。

file 命令能快速判断常见编码，但不绝对准确；enca 更专业，尤其对中文文本识别率高：

file -i filename —— 显示 MIME 类型和编码（如 charset=utf-8 或 charset=iso-8859-1）
enca -L zh filename —— 指定中文语言环境检测（需先 sudo apt install enca 或 yum install enca）
如果 file 显示 charset=binary，可能是含控制字符或编码混杂，建议用 hexdump -C filename | head 看前几行十六进制，观察是否有 EF BB BF（UTF-8 bom）或典型 GBK 字节组合（如 C4 E3）

用 iconv 转换时，必须明确指定源编码（-f）和目标编码（-t），否则默认按 locale 解释，容易出错：

ChatDOC是一款基于chatgpt的文件阅读助手，可以快速从pdf中提取、定位和总结信息

262

iconv -f GBK -t UTF-8 input.txt -o output.txt —— 把 GBK 编码转为 UTF-8
iconv -f GB2312 -t UTF-8//IGNORE input.txt > output.txt —— 遇到无法转换的字节直接跳过（//IGNORE 很实用，避免因个别坏字中断）
想原地替换？先备份：cp file.txt file.txt.bak && iconv -f UTF-8 -t UTF-8 -o file.txt file.txt.bak（看似没变，实则是标准化 + 清理非法序列）

用 shell 循环配合 iconv，注意别覆盖原文件，也别漏掉子目录：

只转当前目录下所有 .txt：
for f in *.txt; do iconv -f GBK -t UTF-8 "$f" -o "${f%.txt}_utf8.txt"; done
递归处理（需 bash 4+ 或 zsh）：
find . -name "*.md" -exec iconv -f GB2312 -t UTF-8 {} -o {}.utf8 ;，然后手动重命名
更稳妥的做法：先用 file -i *.txt 确认是否统一编码，再批量操作；混编文件务必单个检查

基本上就这些。查编码别只信 file，转编码别省掉 -f 参数——漏了就等于让系统瞎猜，结果大概率是乱码上加乱码。

发表于：运维

近一天内

复制链接

为SQL开发者优化的VS Code：连接、查询和格式化

Adam Livingston分析：比特币（BTC）幂律模型显示“压缩的弹簧”准备爆发上涨