golang多协程爬虫核心在于可控并发与调度,而非盲目开goroutine;应采用worker pool模式,固定worker数(如10–50),通过带缓冲channel分发URL任务。

用 golang 写多协程爬虫,核心不是“开很多 goroutine”,而是控制并发、避免重复、处理失败、管理状态——关键在调度和收敛,不在数量。
协程数量要可控,别无脑 go
直接对每个 URL 启动 goroutine 很容易把目标站打挂,也容易被封或触发限流。推荐用 worker pool 模式:固定数量的工作协程(比如 10–50 个),从任务队列里取 URL 执行抓取。
- 用
chan String做 URL 队列(可带缓冲,如make(chan string, 1000)) - 启动固定数目的 worker:
for i := 0; i - 主 goroutine 负责往队列塞初始 URL 和新发现的链接(需去重)
URL 去重和已访问记录必须做
爬虫不加去重,几秒内就会爆炸式生成重复请求,浪费资源还可能死循环。建议用两种结构组合:
- 内存去重:用
sync.map或map[string]Struct{}+sync.RWMutex存已抓过的 URL(适合中小规模) - 持久化记录:用 sqlite / BoltDB / redis 记录已访问 URL 的哈希(如
sha256(url)),重启后不丢状态 - 新解析出的链接,先查再入队,避免无效分发
http 客户端要定制,别用默认 client
默认 http.DefaultClient 没超时、没连接池限制、没 User-Agent,极易被识别为爬虫或耗尽本地 fd。
立即学习“go语言免费学习笔记(深入)”;
- 设置超时:
&http.Client{Timeout: 10 * time.Second} - 自定义 Transport 控制连接复用:
&http.Transport{MaxIdleConns: 100, MaxIdleConnsPerHost: 100, IdleConnTimeout: 30 * time.Second} - 每次请求加随机 User-Agent 和 Referer(可用开源库如
go-fake-useragent) - 必要时加简单请求间隔(
time.Sleep(100 * time.Millisecond)),但优先靠 worker pool 限速
错误要分类处理,不能全丢掉
网络超时、404、503、dns 失败、html 解析异常……每种错误策略不同:
- 临时性错误(timeout、503、连接拒绝):可重试 1–2 次,加指数退避(如
time.Sleep(time.Second ) - 永久性错误(404、410、robots.txt 禁止):记录日志,不再重试
- 解析失败(空 body、非 HTML Content-Type、XPath 找不到):记 warning,不重试,但可存原始响应供调试
- 所有错误建议统一走
chan error汇总,主流程监听并统计
基本上就这些。Golang 并发爬虫不复杂,但容易忽略收敛和韧性——重点不在“快”,而在“稳”和“可持续”。