SQL COPY 的 DELIMITER 与 CSV 格式导入性能对比

1次阅读

delimiter 本身不影响 copy 性能，真正影响性能的是分隔符是否与数据冲突；若无冲突，制表符或竖线等简单分隔符比 csv 模式快 15%–30%，因后者需逐字符解析引号、转义和换行。

sql 的 COPY 命令中，DELIMITER 设置本身不直接影响导入性能，真正影响性能的是字段分隔符是否与数据内容冲突，进而决定是否需要转义、引号包裹和解析复杂度——而 CSV 格式（通常用逗号+双引号+换行）因语法较复杂，解析开销普遍高于简单分隔符（如 t 或 |）。

postgresql 的 COPY 是流式二进制/文本解析，几乎不进行语法校验。只要分隔符在数据中**不出现**，无论设为逗号、制表符或竖线，性能差异可忽略。

安全前提：分隔符必须在整列数据中完全未出现（包括空格、换行、NULL 字节）
若强行用逗号作 DELIMITER 但数据含未引号包裹的逗号（如地址字段 "123 Main St, Apt 4B"），COPY 会报错或错位，此时必须改用 CSV 模式或预处理数据
制表符（E't'）或竖线（'|'）作为分隔符时，天然避开了常见文本内容，极少需引号/转义，解析路径最短

COPY ... format CSV 启用完整 CSV 解析器：需识别双引号包裹、内部引号转义（""）、跨行字段、CRLF/LF 行尾统一等。这些操作无法向量化，逐字符扫描且分支多。

不必纠结“CSV 还是 DELIMITER”，而应根据数据特征选最低开销路径：

导出端可控时：用 psql copy 或 pg_dump --inserts 配合 DELIMITER E't'，禁用 QUOTE 和 ESCAPE
必须用 CSV（如从 excel 导出）：确保源数据已清理（无换行、无未引号逗号），再用 FORMAT CSV QUOTE '"' ESCAPE '"'，避免额外解析歧义
超大数据集（>1GB）：先用 iconv 或 sed 将 CSV 转为 t 分隔（替换逗号为制表符，删引号），再用原生 COPY 文本模式导入
禁用索引与外键：导入前执行 SET CONSTRAINTS ALL DEFERRED，并临时 DROP INDEX，导入完成后再重建

DELIMITER 是个开关，CSV 是一套规则。快慢取决于你让数据库做多少事：跳分隔符很快，匹配引号很慢。数据干净就用简单分隔符；数据杂乱又不能清洗，才用 CSV 模式兜底——但要接受它天然更重。

发表于：web前端

近两天内

复制链接

CSS开发环境与生产环境的引入差异_SourceMap的配置

mysql中前缀索引的使用方法与限制