如何抓取公众号文章_PHP抓取微信文章内容技巧【教程】

1次阅读

php无法直接抓取公众号正文，因微信采用js动态渲染、反爬校验及阅读权限控制；可行方案是用puppeteer/playwright渲染后传给php清洗。

不能直接抓取公众号文章正文——微信服务端对非授权访问做了严格反爬与动态渲染限制，所有声称“PHP直接抓取公众号原文”的方案，本质都是绕过或模拟登录行为，且极不稳定。

为什么 `file_get_contents` 或 `curl` 拿不到真实内容

公众号文章页面（mp.weixin.qq.com/s/xxx）返回的 HTML 中，正文文本通常被包裹在 <script></script> 标签内、经 JS 动态解密或分片加载；部分页面甚至返回空 <div id="js_content"></div>，真实内容需执行 JS 才能还原。

微信服务端会校验 User-Agent、cookie（尤其是 ua_id、mm_lang、wap_sid2）、Referer 和请求频率
未登录状态或 Cookie 过期时，页面会跳转到登录页或返回 403/404，但 http 状态码仍可能是 200
部分文章启用「阅读权限控制」，即使有合法 Cookie，也需用户已关注该号或满足阅读条件

PHP 能做的有限动作：解析已获取的 HTML 片段

若你已有合法渠道拿到带正文的 HTML（例如通过 Puppeteer/Playwright 渲染后保存的静态页面），PHP 可用 domDocument 提取内容，但必须避开 JS 渲染陷阱：

优先用 $dom->getElementById('js_content') 获取容器，再用 $node->textContent 提取纯文本，而非 innerHTML（避免残留样式标签）
手动过滤常见干扰节点：span[data-type="music"]、section[data-role="outer"]、img[data-type="wx"]
注意编码：微信 HTML 常声明 charset=GBK，但实际内容为 UTF-8，需强制 mb_convert_encoding($html, 'UTF-8', 'GBK')

示例片段：

立即学习“PHP免费学习笔记（深入）”；

$dom = new DOMDocument(); libxml_use_internal_errors(true); $dom->loadHTML(mb_convert_encoding($html, 'UTF-8', 'GBK')); $content = $dom->getElementById('js_content'); echo $content ? trim($content->textContent) : '';

真正可行的替代路径：不依赖 PHP 直接抓取

PHP 不适合承担浏览器环境模拟任务。更可靠的做法是：

用 Node.js 的 Puppeteer 或 Python 的 playwright 启动无头 Chromium，注入有效 Cookie 并等待 #js_content 渲染完成，再提取 innerHTML
将渲染结果 POST 到 PHP 接口，由 PHP 做后续清洗、存储或格式转换
若需长期稳定采集，必须维护一套 Cookie 池 + 登录态心跳机制（微信会定期失效 wap_sid2）
注意法律边界：《微信公众号平台运营规范》明确禁止未经许可的内容搬运，高频请求还可能触发账号封禁

真正难的不是写几行 curl_setopt，而是维持一个能持续通过微信反爬验证的登录态——这和 PHP 本身关系不大，关键在环境模拟精度与 Cookie 生命周期管理。

发表于：后端开发

近两天内

复制链接

c++中的placement new是什么_c++在指定内存上构造对象【高级】

.NET Web API如何配置路由（Routing）

Golang 怎么做服务发现？consul vs etcd vs nacos

Python 切片操作的复杂度与优化

Sublime怎么解决ConvertToUTF8失效问题_Sublime乱码处理【避坑】

如何抓取公众号文章_PHP抓取微信文章内容技巧【教程】

为什么 `file_get_contents` 或 `curl` 拿不到真实内容

PHP 能做的有限动作：解析已获取的 HTML 片段

真正可行的替代路径：不依赖 PHP 直接抓取

play函数不生效怎么办_解决音频无法播放问题【解答】

PHP怎么保存小数比较总不等_排查精度舍入不一致问题【介绍】

vscode的 Zen Mode 怎么用_进入无干扰的全屏编码模式【教程】

C# Task使用方法 C#如何使用Task进行异步操作

SSIS包如何自动化从文件夹获取XML并上传的流程

CSS缩小比例flex-shrink_当容器不足时元素的收缩规则

mysql安装后如何设置root密码_mysql初始用户配置

mysql幻读是怎么出现的_mysql并发事务分析

XML Schema xs:attribute type XSD属性数据类型

mysql如何备份数据以防升级失败_mysql数据备份方案

如何抓取公众号文章_PHP抓取微信文章内容技巧【教程】

为什么 file_get_contents 或 curl 拿不到真实内容

PHP 能做的有限动作：解析已获取的 HTML 片段

真正可行的替代路径：不依赖 PHP 直接抓取

为什么 `file_get_contents` 或 `curl` 拿不到真实内容