php远程访问文件怎么打开_phpcurl多url远程批量取法【批量】

10次阅读

curl_multi_exec 并发取多个 URL 最省资源，需设 CURLMOPT_MAXCONNECTS、毫秒级超时、dns 缓存，并分组处理避免系统限制。

curl_multi_exec 一次性并发取多个 URL 最省资源

php 原生 curl 单次只能处理一个请求，批量抓取时用循环串行调用会极慢。真正高效的做法是用 curl_multi_init 管理多个句柄，让它们在底层并行发起 http 连接。

关键不是“能不能”，而是“怎么避免超时、内存溢出、DNS 阻塞”。实操中要注意：

curl_multi_setopt($mh, CURLMOPT_MAXCONNECTS, 20) 必须设，否则默认只保持 5 个连接，大量 URL 会排队等复用
每个 curl_setopt($ch, CURLOPT_TIMEOUT_MS, 3000) 要设毫秒级超时，避免单个慢响应拖垮整批
不要在循环里反复 curl_multi_add_handle 后立刻 curl_multi_exec —— 正确姿势是全加完再执行一次主循环
DNS 解析容易成为瓶颈，加 curl_setopt($ch, CURLOPT_DNS_CACHE_TIMEOUT, 300) 复用缓存

function fetchUrlsMulti(array $urls): array {     $mh = curl_multi_init();     curl_multi_setopt($mh, CURLMOPT_MAXCONNECTS, 20);          $chs = [];     $results = [];          foreach ($urls as $i => $url) {         $ch = curl_init();         curl_setopt($ch, CURLOPT_URL, $url);         curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);         curl_setopt($ch, CURLOPT_TIMEOUT_MS, 3000);         curl_setopt($ch, CURLOPT_DNS_CACHE_TIMEOUT, 300);         curl_setopt($ch, CURLOPT_USERAGENT, 'PHP-curl-multi');         curl_multi_add_handle($mh, $ch);         $chs[$i] = $ch;     }          $running = null;     do {         curl_multi_exec($mh, $running);         curl_multi_select($mh, 0.1); // 防止 CPU 空转     } while ($running > 0);          foreach ($urls as $i => $url) {         $results[$url] = curl_multi_getcontent($chs[$i]);         curl_multi_remove_handle($mh, $chs[$i]);         curl_close($chs[$i]);     }          curl_multi_close($mh);     return $results; }

file_get_contents 不适合批量远程访问

很多人第一反应是用 file_get_contents + stream_context_create，但它本质仍是阻塞式同步 I/O，没有并发能力。哪怕你写个 for 循环，也是串行跑完一个才开始下一个。

更麻烦的是：它不支持连接复用、无法统一控制超时粒度、错误堆栈不清晰（比如 DNS 失败直接报 failed to open stream，没法定位是哪个 URL）。真实场景下，10 个 URL 串行可能耗时 8 秒以上；而 curl_multi 通常 1–2 秒内完成。

立即学习“PHP免费学习笔记（深入）”；

若硬要用 file_get_contents，至少得配 stream_context_set_default 统一设 timeout 和 user_agent
但遇到 https 证书问题、302 重定向、大响应体，它比 curl 更难调试
PHP 8.1+ 已标记 allow_url_fopen=Off 为默认趋势，很多生产环境直接禁用

批量失败时怎么定位具体哪个 URL 出了问题

用 curl_multi_info_read 可以拿到每个句柄的最终状态，包括 HTTP 状态码、错误码、错误信息。别只看 curl_multi_getcontent 返回空字符串就认为失败 —— 有些返回 200 但内容是 html 错误页，有些返回 0 字节但实际是 503。

每次 curl_multi_exec 后必须调用 curl_multi_info_read 拿到已完成句柄列表
用 curl_getinfo($ch, CURLINFO_HTTP_CODE) 判断是否为 200–299
用 curl_errno($ch) 和 curl_error($ch) 查网络层错误（如 CURLE_COULDNT_RESOLVE_HOST）
建议把每个 URL 的 CURLINFO_EFFECTIVE_URL、CURLINFO_TOTAL_TIME 也记下来，方便后续分析慢请求

大数量（>100 URL）时要分组，别一把梭

一次性扔 500 个 URL 进 curl_multi 容易触发系统限制：linux 默认单进程最多打开 1024 个 socket，PHP 内存也会飙升。实测超过 200 个句柄后，curl_multi_select 延迟明显上升。

按每组 20–50 个 URL 分批次处理，组间 sleep(0.05) 避免端口耗尽
用 curl_multi_setopt($mh, CURLMOPT_PIPELINING, 1) 开启管线化（需服务端支持），可减少 TCP 握手次数
如果目标域名固定，加 curl_setopt($ch, CURLOPT_TCP_KEEPALIVE, 1) 复用长连接
记得在循环外提前 set_time_limit(0)，防止脚本被超时中断

实际跑起来最常被忽略的是 DNS 缓存和连接数限制 —— 很多人调通了小样本，一上生产就大量超时，翻来覆去查代码，最后发现只是 CURLMOPT_MAXCONNECTS 没设，或者没关掉 ipv6 强制解析。

发表于：php框架

2026-01-18

# ai # curl # dns # for # html # http # https # ipv6 # linux # php # stream # 堆 # 字符串 # 字节 # 并发 # 循环 # 栈 # 状态码 # 端口

复制链接

c++如何实现一个简单的Web框架_c++ Crow/Pistache入门【项目】

SQL 使用 CTE 提升 SQL 可读性

css外部样式文件加载方案_大型项目结构设计

PHP 中幂运算符与按位异或运算符 ^ 的本质区别

c++中如何实现简单的XML解析_c++处理XML文件的基本思路【汇总】

php远程访问文件怎么打开_phpcurl多url远程批量取法【批量】

curl_multi_exec 一次性并发取多个 URL 最省资源

file_get_contents 不适合批量远程访问

批量失败时怎么定位具体哪个 URL 出了问题

大数量（>100 URL）时要分组，别一把梭

c++中如何获取变量的字节数_c++ sizeof运算符用法与注意事项【详解】

javascript有哪些设计模式_如何应用在项目中【教程】

微星电脑怎样测html5性能_微星电脑测html5能力【测评】

如何在Golang中使用const常量_Golang常量定义与使用规范

c# async/await 和 continuation-passing style (CPS) 的关系

GitPython 中高效获取当前分支相对于 master 的所有变更文件列表

如何在 React.js 中使用 @ 符号进行路径别名导入

Sublime怎么设置代码缩进为2个空格_Sublime前端开发缩进规范【指南】

css如何通过float和clear控制元素排列_解决浮动元素排列问题

如何优化Golang程序的日志输出性能_Golang日志优化与并发写入技巧