如何用Golang实现简单爬虫程序_Golang网络请求与解析实战

3次阅读

实际项目中必须用自定义http.Client：设Timeout防卡死，设User-Agent防403，配Transport复用连接；解析html须用golang.org/x/net/html而非正则；并发需限速控频；结果应存jsON Lines格式。

用 `net/http` 发起 GET 请求，别直接上 `http.Get`

直接调用 http.Get 看似简单，但无法设置超时、User-Agent、重试逻辑，遇到反爬或网络抖动就挂。实际项目中必须用 http.Client 自定义实例：

总是显式设置 Timeout，比如 10 * time.Second，避免协程卡死
通过 req.Header.Set("User-Agent", "...") 模拟浏览器，否则很多站点返回 403
如果需要复用连接，记得设置 Transport 的 MaxIdleConns 和 MaxIdleConnsPerHost

示例片段：

client := &http.Client{     Timeout: 10 * time.Second,     Transport: &http.Transport{         MaxIdleConns:        100,         MaxIdleConnsPerHost: 100,     }, } req, _ := http.NewRequest("GET", url, nil) req.Header.Set("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) appleWebKit/537.36") resp, err := client.Do(req)

解析 HTML 用 `golang.org/x/net/html`，不是正则也不是 `Strings.Contains`

HTML 是嵌套结构，用字符串匹配或正则提取标题、链接极易出错——比如标签换行、属性顺序变化、注释干扰都会让提取失败。标准做法是用 golang.org/x/net/html 构建节点树：

用 html.Parse 解析响应体（注意传入 resp.Body 前确保状态码是 200）
遍历节点时重点判断 node.Type == html.ElementNode，再检查 node.Data 是否为 "a" 或 "title"
属性需遍历 node.Attr 切片，用 attr.Key == "href" 提取链接，别硬索引

常见坑：没调用 resp.Body.Close() 会导致文件描述符耗尽；解析前没检查 resp.StatusCode，404 页面照样解析，结果为空。

立即学习“go语言免费学习笔记（深入）”；

并发抓取要控速，别无脑开 `go` routine

一次性启动上百 goroutine 请求不同 URL，容易触发目标站限流、本地端口耗尽（TIME_WAIT），甚至被拉黑。必须做速率控制：

用带缓冲的 channel 当令牌桶，比如 sem := make(chan Struct{}, 5) 控制最多 5 个并发
每个请求前 sem ，结束后
对同一域名，建议加 time.Sleep(100 * time.Millisecond) 避免密集请求（除非明确允许）

注意：不要在循环里直接 go func(url string) { ... }(url)，变量 url 会被闭包捕获同一地址，导致所有 goroutine 处理最后一个值 —— 正确写法是传参或用 let url = url 类思路（Go 中需显式赋值新变量）。

保存结果时优先选结构化格式，别只写文本文件

爬下来的数据如果只用 fmt.Fprintln 写进 .txt，后续清洗、去重、导入数据库会非常痛苦。建议默认输出为 json 行格式（JSON Lines）：

每行一个 JSON 对象，方便 cat data.jsonl | jq '.url' 或 python 流式读取
用 json.NewEncoder(file).Encode(item) 直接序列化结构体，避免手动拼接
字段名保持小写+下划线（如 page_title），兼容多数数据库和分析工具

真正难的不是发请求或提内容，而是处理重定向循环、javaScript 渲染页、登录态维持、Robots.txt 遵守、IP 轮换这些边界情况——它们不会出现在“简单爬虫”教程里，但上线后第一个报错往往就来自这儿。

发表于：后端开发

近三天内

怎样限制PHP本地环境访问IP段_PHP本地环境限IP段访问技巧【限制】

PHP如何设置字段注释_PHP设置注释提升可读【说明】

python中怎么保留小数

如何将带多级列头的 Pandas DataFrame 重塑为规整的长格式结构

如何正确设置 HTML 元素的全宽背景图（避免水平溢出）

如何用Golang实现简单爬虫程序_Golang网络请求与解析实战

用 `net/http` 发起 GET 请求，别直接上 `http.Get`

解析 HTML 用 `golang.org/x/net/html`，不是正则也不是 `Strings.Contains`

并发抓取要控速，别无脑开 `go` routine

保存结果时优先选结构化格式，别只写文本文件

VSCode设置文件问题查找_如何在settings.json文件中解决问题

币圈貔貅盘和内盘是什么意思

怎样为VSCode配置不同语言的开发环境？多语言支持实战【教程】

流动性池（LP）是什么意思？AMM自动做市机制详解与无常损失风险解析

如何自动根据地址嵌入 Google 地图实例

Nginx的配置文件可以用XML格式吗

Go语言指针与GC有什么关系_Golang垃圾回收机制基础

c# 异步流（IAsyncEnumerable）如何处理异常

优酷孩子看片html5怎么关_家长控制关闭html5说明【说明】

mysql如何查询全部字段_mysql select语法基础

如何用Golang实现简单爬虫程序_Golang网络请求与解析实战

用 net/http 发起 GET 请求，别直接上 http.Get

解析 HTML 用 golang.org/x/net/html，不是正则也不是 Strings.Contains

并发抓取要控速，别无脑开 go routine

保存结果时优先选结构化格式，别只写文本文件

用 `net/http` 发起 GET 请求，别直接上 `http.Get`

解析 HTML 用 `golang.org/x/net/html`，不是正则也不是 `Strings.Contains`

并发抓取要控速，别无脑开 `go` routine