最快方式是用 LOAD DATA INFILE(mysql)或 copy(postgresql)等原生命令,关键在数据格式规范、禁用约束与索引、调优缓冲区及分批处理,避免 LOCAL INFILE 权限问题。

SQL批量导入数据最快的方式是用 LOAD DATA INFILE(MySQL)或类似原生命令(如 PostgreSQL 的 COPY),而不是逐条 INSERT。关键不在“怎么写”,而在“怎么准备”和“怎么调”。
数据文件必须干净、格式对齐
LOAD DATA 对输入格式极其敏感,稍有不一致就会报错或跳过行。务必做到:
- 字段分隔符统一(如 TAB 或逗号),避免混用空格或不可见字符
- 字符串字段用 双引号包裹,且内部双引号需转义为两个双引号(”a””b”)
- 日期、数字字段不能含前导/尾随空格,NULL 值统一写成 N(MySQL)或空字段(依 NULL 处理规则)
- 首行如果是列名,加 IGNORE 1 LINES;否则别加,否则第一行数据会被跳过
关掉非必要开销,导入前临时调优
默认设置为事务安全而牺牲速度。批量导入时可临时放宽:
- 执行 SET UNIQUE_CHECKS=0, FOREIGN_KEY_CHECKS=0,导入完再设回 1
- 增大 innodb_buffer_pool_size(若内存允许)和 bulk_insert_buffer_size
- 关闭自动提交:SET autocommit = 0,并在导入后手动 COMMIT
- 确保目标表无冗余索引——可先 DROP KEY,导入完成再 ADD KEY
用 LOCAL INFILE 要确认权限与配置
LOAD DATA LOCAL INFILE 看似方便,但常因安全限制失败:
- 服务端需开启 local_infile=ON(my.cnf 中 [mysqld] 和 [client] 段都要配)
- 客户端连接时要显式启用:mysql -u user -p –local-infile=1
- 部分托管环境(如阿里云 RDS)默认禁用,此时改用 mysqlimport 工具或走服务端文件路径
替代方案:分批次 + 并行更稳
单次 LOAD DATA 超过千万行可能卡住或 OOM。更实用的做法是:
- 把大文件按 50–100 万行切片(用 split -l 500000 data.csv chunk_)
- 用脚本循环执行 LOAD DATA,每批后 COMMIT 并检查影响行数
- 多线程并行只适用于不同表;同一张表并发 LOAD 会锁表,反而更慢
不复杂但容易忽略:快的前提是“准”。格式错一行,整个 LOAD 可能停在半路;索引没关,速度直接打三折。