curl_multi_exec 并发取多个 URL 最省资源,需设 CURLMOPT_MAXCONNECTS、毫秒级超时、dns 缓存,并分组处理避免系统限制。

curl_multi_exec 一次性并发取多个 URL 最省资源
php 原生 curl 单次只能处理一个请求,批量抓取时用循环串行调用会极慢。真正高效的做法是用 curl_multi_init 管理多个句柄,让它们在底层并行发起 http 连接。
关键不是“能不能”,而是“怎么避免超时、内存溢出、DNS 阻塞”。实操中要注意:
-
curl_multi_setopt($mh, CURLMOPT_MAXCONNECTS, 20)必须设,否则默认只保持 5 个连接,大量 URL 会排队等复用 - 每个
curl_setopt($ch, CURLOPT_TIMEOUT_MS, 3000)要设毫秒级超时,避免单个慢响应拖垮整批 - 不要在循环里反复
curl_multi_add_handle后立刻curl_multi_exec—— 正确姿势是全加完再执行一次主循环 - DNS 解析容易成为瓶颈,加
curl_setopt($ch, CURLOPT_DNS_CACHE_TIMEOUT, 300)复用缓存
function fetchUrlsMulti(array $urls): array { $mh = curl_multi_init(); curl_multi_setopt($mh, CURLMOPT_MAXCONNECTS, 20); $chs = []; $results = []; foreach ($urls as $i => $url) { $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); curl_setopt($ch, CURLOPT_TIMEOUT_MS, 3000); curl_setopt($ch, CURLOPT_DNS_CACHE_TIMEOUT, 300); curl_setopt($ch, CURLOPT_USERAGENT, 'PHP-curl-multi'); curl_multi_add_handle($mh, $ch); $chs[$i] = $ch; } $running = null; do { curl_multi_exec($mh, $running); curl_multi_select($mh, 0.1); // 防止 CPU 空转 } while ($running > 0); foreach ($urls as $i => $url) { $results[$url] = curl_multi_getcontent($chs[$i]); curl_multi_remove_handle($mh, $chs[$i]); curl_close($chs[$i]); } curl_multi_close($mh); return $results; }
file_get_contents 不适合批量远程访问
很多人第一反应是用 file_get_contents + stream_context_create,但它本质仍是阻塞式同步 I/O,没有并发能力。哪怕你写个 for 循环,也是串行跑完一个才开始下一个。
更麻烦的是:它不支持连接复用、无法统一控制超时粒度、错误堆栈不清晰(比如 DNS 失败直接报 failed to open stream,没法定位是哪个 URL)。真实场景下,10 个 URL 串行可能耗时 8 秒以上;而 curl_multi 通常 1–2 秒内完成。
立即学习“PHP免费学习笔记(深入)”;
- 若硬要用
file_get_contents,至少得配stream_context_set_default统一设timeout和user_agent - 但遇到 https 证书问题、302 重定向、大响应体,它比
curl更难调试 - PHP 8.1+ 已标记
allow_url_fopen=Off为默认趋势,很多生产环境直接禁用
批量失败时怎么定位具体哪个 URL 出了问题
用 curl_multi_info_read 可以拿到每个句柄的最终状态,包括 HTTP 状态码、错误码、错误信息。别只看 curl_multi_getcontent 返回空字符串就认为失败 —— 有些返回 200 但内容是 html 错误页,有些返回 0 字节但实际是 503。
- 每次
curl_multi_exec后必须调用curl_multi_info_read拿到已完成句柄列表 - 用
curl_getinfo($ch, CURLINFO_HTTP_CODE)判断是否为 200–299 - 用
curl_errno($ch)和curl_error($ch)查网络层错误(如CURLE_COULDNT_RESOLVE_HOST) - 建议把每个 URL 的
CURLINFO_EFFECTIVE_URL、CURLINFO_TOTAL_TIME也记下来,方便后续分析慢请求
大数量(>100 URL)时要分组,别一把梭
一次性扔 500 个 URL 进 curl_multi 容易触发系统限制:linux 默认单进程最多打开 1024 个 socket,PHP 内存也会飙升。实测超过 200 个句柄后,curl_multi_select 延迟明显上升。
- 按每组 20–50 个 URL 分批次处理,组间 sleep(0.05) 避免端口耗尽
- 用
curl_multi_setopt($mh, CURLMOPT_PIPELINING, 1)开启管线化(需服务端支持),可减少 TCP 握手次数 - 如果目标域名固定,加
curl_setopt($ch, CURLOPT_TCP_KEEPALIVE, 1)复用长连接 - 记得在循环外提前
set_time_limit(0),防止脚本被超时中断
实际跑起来最常被忽略的是 DNS 缓存和连接数限制 —— 很多人调通了小样本,一上生产就大量超时,翻来覆去查代码,最后发现只是 CURLMOPT_MAXCONNECTS 没设,或者没关掉 ipv6 强制解析。