爬虫如何伪装浏览器_PHP设置请求头伪装浏览器操作【方法】

1次阅读

php curl 伪装浏览器需完整设置 user-agent 及 accept、accept-language 等配套请求头,并用 curl_setopt_array() 正确传入索引数组格式的 httpheader;file_get_contents() 仅支持基础 ua,不适用于现代反爬场景。

爬虫如何伪装浏览器_PHP设置请求头伪装浏览器操作【方法】

PHP cURL 如何设置 User-Agent 伪装浏览器

直接改 User-Agent 是最基础也最容易失效的一环。很多目标站只校验这个字段,但也有不少会连带检查 AcceptAccept-LanguageSec-Fetch-* 等现代浏览器必带的头。光设 User-Agent 不配齐其他字段,反而更容易被识别为爬虫

实操建议:

  • 用主流浏览器最新版本的真实 UA 字符串(例如 chrome 126 on windows),不要用“Mozilla/5.0 (compatible; …)”这种泛化写法
  • 必须同步设置 AcceptAccept-LanguageAccept-Encoding,保持与 UA 匹配
  • 对较新的站点,补上 Sec-Fetch-DestSec-Fetch-ModeSec-Fetch-Site(值参考真实请求抓包)
  • 避免在单个请求中混用不兼容的头组合(比如用移动端 UA 却发桌面端 Sec-Fetch 值)

curl_setopt_array() 设置多请求头的正确写法

很多人用 curl_setopt($ch, CURLOPT_HTTPHEADER, [...]) 手动拼数组,结果因换行符、空格或键名格式出错——cURL 的 HTTPHEADER 要求每项是 "Key: Value" 格式的字符串,不是关联数组

推荐写法:

立即学习PHP免费学习笔记(深入)”;

  • curl_setopt_array() 统一配置,更清晰不易漏
  • HTTPHEADER 必须是索引数组,每项为完整头字符串,如 "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
  • 别把 Content-Typecookie 写进 HTTPHEADER 后又单独设 CURLOPT_POSTCURLOPT_COOKIE,容易冲突
  • 若需动态更新 Cookie,优先用 CURLOPT_COOKIEJAR + CURLOPT_COOKIEFILE,比手动拼 Cookie: 头更可靠

file_get_contents() 能不能伪装浏览器?

能,但非常受限。它底层不走 cURL,而是用 PHP 的 stream context,支持的头字段少,不支持 Sec-Fetch 类字段,且无法控制连接复用、DNS 缓存等关键行为。

仅适合简单场景:

  • 目标站无反爬,只要求基础 UA
  • 请求频率极低(
  • 你确认对方没校验 Accept-Encoding 或 TLS 指纹(file_get_contents 无法干预 TLS 握手细节)
  • 否则果断换 cURL —— 它能设 CURLOPT_SSL_VERIFYPEERCURLOPT_TCP_KEEPALIVECURLOPT_HTTP_VERSION,这些对绕过 WAF 很关键

UA 随机化要不要做?

单任务没必要,多线程/分布式批量采集时才值得引入。随机本身不提高成功率,反而可能因 UA 与请求头不匹配触发校验失败。

如果决定加:

  • 用固定 UA 池(比如 5–10 条真实、近期有效的 Chrome/Firefox UA),不要实时抓取或生成
  • 每个 UA 对应一套完整的头模板(包括 Accept、Encoding、Sec-Fetch 值),而不是只换 UA 字段
  • 记录每次使用的 UA 和响应状态,便于排查是 UA 问题还是其他规则拦截
  • 注意:某些站点会根据 UA 推断客户端能力并返回不同 HTML 结构,随机 UA 可能导致解析逻辑崩溃

实际最难的不是设头,是头设完之后服务端仍返回 403 或空白页——这时候得看是不是 TLS 指纹、HTTP/2 流控、JS 挑战或 Referer 链路校验出了问题。头只是第一道门,别卡在这儿反复调 UA。

text=ZqhQzanResources