Composer怎么安装Crawler爬虫库网页抓取功能集成教程【实操】

7次阅读

不存在官方维护的名为 crawler 的 composer 包，应使用 spatie/crawler（推荐）、goutte/goutte 或 symfony/dom-crawler 等替代方案；直接执行 composer require crawler 会报错。

Composer 安装 crawler 库前先确认有没有这个包

根本不存在官方维护的名为 crawler 的 Composer 包。你搜到的所谓“crawler”库，大概率是：spatie/crawler（最常用）、goutte/goutte（轻量 http 抓取）、symfony/dom-crawler（配合 HTTP Client 使用），或者一些已废弃/无人维护的冷门包。

别直接跑 composer require crawler —— 这会报错：Could not find package crawler。

实操建议：

用 composer search crawler 查当前可用包名（注意看 stars 和 last update 时间）
优先选 spatie/crawler：它自带并发、队列、URL 去重、robots.txt 遵守，适合中等规模抓取
如果只是解析 html 内容，symfony/dom-crawler + symfony/http-client 组合更轻、更可控
避免用 fabpot/goutte（旧版）或 phpcrawl（PHP 5 时代，不兼容 PHP 8+）

安装 spatie/crawler 并初始化一个基础爬虫

spatie/crawler 是目前最稳妥的选择，但依赖 Guzzle 和 Symfony 组件，PHP 版本需 ≥ 8.0。

运行命令安装：

composer require spatie/crawler

注意：它默认不带浏览器渲染能力（不能执行 js），纯服务端 HTML 解析。如果你要抓 JS 渲染页，得额外配 Puppeteer 或 Playwright，spatie/crawler 不处理这部分。

一个最小可运行示例：

setCrawlObserver(new class extends SpatieCrawlerCrawlObserversCrawlObserver {         public function crawled(PsrHttpMessageUriInterface $url, GuzzleHttpPsr7Response $response, ?Throwable $error = null): void         {             if ($error === null) {                 echo "✅ {$url} ({$response->getStatusCode()})n";             } else {                 echo "❌ {$url}: {$error->getMessage()}n";             }         }     })     ->startCrawling('https://example.com');

常见坑：

没配 allow_url_fopen=On 或 Openssl 扩展未启用 → 报 curl Error 60: SSL certificate problem，加 ->setCrawlRequestOptions(['verify' => false]) 仅限测试
目标站有反爬（如 Cloudflare）→ spatie/crawler 会直接被 403 或 503 拦住，需手动加 User-Agent 和延迟
没写 ->respectRobotsTxt() → 可能违反 robots.txt，被封 IP

抓取后怎么提取网页标题和链接？用 DomCrawler 更直接

很多人装了 spatie/crawler 却卡在“怎么取数据”。它本身不提供 DOM 查询 API，得靠 symfony/dom-crawler 或原生 DOMDocument。

推荐组合：用 spatie/crawler 负责调度 + symfony/dom-crawler 负责解析：

composer require symfony/dom-crawler symfony/css-selector

在 crawled() 回调里加解析逻辑：

$crawler = new SymfonyComponentDomCrawlerCrawler((string) $response->getBody()); $title = $crawler->filter('title')->text(null, ''); $links = $crawler->filter('a[href]')->extract(['href']);

注意点：

Filter() 支持 CSS 选择器，但不支持所有现代语法（比如 :has() 在旧版本不支持）
text() 第二个参数是 fallback 值，防止空节点报 Notice
如果 HTML 是乱码（如 GBK），需先用 mb_convert_encoding() 转 UTF-8，否则 filter() 失效

为什么本地跑通了，上线就超时或内存溢出？

spatie/crawler 默认并发 10，深度不限，遇到大型网站（比如整站抓取）很容易撑爆内存或触发超时。

必须显式限制：

加 ->setMaximumCrawlCount(100) 控制总请求数
加 ->setMaximumDepth(3) 防止无限跳转子页面
加 ->setDelayBetweenRequests(1000)（毫秒），降低请求频率
生产环境务必用 ->executejavaScript(false)（默认就是 false，但有人误开）

还有个隐藏问题：日志输出太多（尤其用 var_dump 或 echo）会导致 CLI 缓冲区满、进程假死。线上部署建议关掉所有调试输出，改用 Monolog 记日志。

真正难的不是装包，而是判断该不该爬、能不能爬、怎么爬得稳——robots.txt、User-Agent 合理性、响应头里的 X-Robots-Tag、RateLimit 字段，这些比写代码花的时间多得多。

发表于：开发工具

2026-01-29

复制链接

sublime如何配置C/C++的自动补全和代码跳转？ (LSP-clangd教程)

VSCode中的多光标编辑神技，让你效率倍增

VSCode如何调试Ruby与Rails项目【教程】

javascript中的闭包是什么_它会在什么场景下导致内存泄漏？

Go 语言中 Goroutine 通过无缓冲通道实现精确交替执行的原理详解

Composer怎么安装Crawler爬虫库网页抓取功能集成教程【实操】

Composer 安装 crawler 库前先确认有没有这个包

安装 spatie/crawler 并初始化一个基础爬虫

抓取后怎么提取网页标题和链接？用 DomCrawler 更直接

为什么本地跑通了，上线就超时或内存溢出？

composer提示failed to download怎么办_composer下载失败原因与解决【汇总】

如何通过内联 JavaScript 隐藏指定的表格行（tr）

VSCode代码格式化问题_自动换行与缩进错误纠正

如何在 Go 中安全并发请求多个 URL（避免 EOF JSON 错误）

如何在 ECS 任务中正确配置 AWS 凭据与区域以安全调用 SQS

Go语言如何开发文件监控工具_Golang文件监听项目实战

Python ElementTree库怎么用 ElementTree解析XML入门

mysql报错1030是什么原因_mysql文件系统问题

C++中string_view有什么优势_C++17高性能只读字符串封装【优化】

HTML5 动态侧边栏与 iframe 外部页面加载实战指南

Composer怎么安装Crawler爬虫库 网页抓取功能集成教程【实操】

Composer 安装 crawler 库前先确认有没有这个包

安装 spatie/crawler 并初始化一个基础爬虫

抓取后怎么提取网页标题和链接？用 DomCrawler 更直接

为什么本地跑通了，上线就超时或内存溢出？

Composer怎么安装Crawler爬虫库网页抓取功能集成教程【实操】