Python网页爬虫入门教程_BeautifulSoup与requests解析

14次阅读

requests与beautifulsoup是python爬虫最基础实用的组合，用于获取并解析静态网页；需安装beautifulsoup4和lxml，用r.content避免编码问题，再用soup.find/find_all提取内容。

用 requests 获取网页内容，再用 BeautifulSoup 解析 html，是 Python 爬虫最基础也最实用的组合。它轻量、易学、够用，适合绝大多数静态页面抓取任务。

安装依赖很简单

打开终端或命令行，依次运行：

pip install requests
pip install beautifulsoup4

注意：不要装 bs4（这是旧名），要装 beautifulsoup4；如果提示缺少解析器，可额外安装 lxml（速度快）或 html.parser（Python 内置，无需安装）。

requests 获取网页源码

requests 负责“下载”，就像你在浏览器里按 F12 看到的原始 HTML。关键点有三个：

立即学习“Python免费学习笔记（深入）”；

用 requests.get(url) 发起请求，返回一个 Response 对象
检查 r.status_code 是否为 200，确认请求成功
用 r.text 拿到字符串形式的 HTML，或 r.content（推荐用于含中文的页面，避免编码乱码）

示例：

r = requests.get('https://httpbin.org/html') if r.status_code == 200:     html = r.content  # 更稳妥地处理编码

BeautifulSoup 解析 HTML 结构

BS4 把 HTML 字符串变成可遍历、可搜索的对象树。核心操作包括：

创建解析对象：soup = BeautifulSoup(html, 'lxml') 或 'html.parser'
找单个标签：soup.find('h1') 或 soup.h1
找所有匹配项：soup.find_all('a')，支持按 class、id、属性过滤，如 soup.find_all('div', class_='post-title')
提取文本：tag.get_text() 或 tag.text（推荐前者，更健壮）
提取属性：tag['href']，但需先用 if tag.has_attr('href'): 判断，避免 KeyError

实战小例子：抓取标题和链接

以一个简单博客列表页为例：

import requests from bs4 import BeautifulSoup url = 'https://www.php.cn/link/5fa81016250471111dfca121ae9cdc14' r = requests.get(url) soup = BeautifulSoup(r.content, 'lxml')for article in soup.find_all('article'): title = article.find('h2') link = article.find('a') if title and link and link.has_attr('href'): print(title.get_text().strip(), '→', link['href'])

这段代码会逐个定位每篇文章区块，安全提取标题与链接，跳过缺失字段的情况。

不复杂但容易忽略细节：加 headers 模拟浏览器、控制请求频率、处理编码、检查元素是否存在——这些才是让爬虫稳定跑起来的关键。

发表于：后端开发

2025-12-29

复制链接

javascript如何实现类型判断_有哪些注意事项【教程】

Django模板中{% with %}标签的变量作用域与累加问题解析

c++怎么用C++20的std::chrono处理时区和日历_C++时间处理与Chrono库进阶

如何在Golang中实现JWT认证_生成和验证用户令牌

如何在 Python 中强制将段落输出为单行长文本（禁用终端自动换行）

Python网页爬虫入门教程_BeautifulSoup与requests解析

安装依赖很简单

requests 获取网页源码

BeautifulSoup 解析 HTML 结构

实战小例子：抓取标题和链接

C# 数据库连接池耗尽问题 C#如何诊断和解决连接池问题

FIMO输出HTML有阴影偏移量吗_FIMO输出HTML阴影参数详情【解析】

Golang项目如何初始化_go mod init使用说明

composer怎么查看包的更新日志_outdated命令查找过时依赖【教程】

用最简单的话解释什么是NFT_非同质化代币入门必看

html5改格式常遇问题_报错代码对应处理汇总【汇总】

mysql数据库为什么要使用索引_mysql基础优化原理

Sublime如何配置SASS编译为CSS_Sublime前端工作流设置【全攻略】

mysql数据库的连接池配置与高并发性能

mysql操作系统权限问题怎么办_mysql权限配置错误