使用 Python 递归提取网站所有链接

25次阅读

本文将介绍如何使用 python 的 `requests` 和 `re` 模块递归地提取网站上的所有链接。通过改进原始代码，解决了无限循环的问题，并添加了最大深度限制，确保程序能够有效地抓取链接，避免陷入死循环。同时，代码进行了优化，提高了可读性和可维护性。

递归爬取网站链接

网络爬虫是一种自动浏览互联网并提取信息的程序。递归爬虫通过不断访问链接来发现新的链接，直到达到预定的深度或满足特定条件。在 Python 中，我们可以使用 requests 库来获取网页内容，re 库来提取链接。

代码实现

以下是一个改进后的 Python 脚本，用于递归提取网站上的所有链接：

网易天音

网易出品！一站式音乐创作工具！零基础写歌！

76

查看详情

import requests import re from urllib.parse import urljoin, urlparse  def extract_links_from(url):     """     从给定的 URL 中提取所有 href 链接。     """     try:         response = requests.get(url, timeout=5) # 添加超时时间         if response.status_code != 200:             print(f"Error: Status code {response.status_code} for {url}")             return []         content = str(response.content, 'utf-8', errors='ignore') # 指定编码，忽略错误         links = re.findall(r'(?:href=")(.*?)"', content, re.MULTILINE)         return links     except requests.exceptions.RequestException as e:         print(f"Error fetching {url}: {e}")         return []   def crawl(url, domain, visited=set(), max_depth=5):     """     递归地爬取网站链接。      Args:         url: 起始 URL。         domain: 网站域名，用于过滤外部链接。         visited: 已经访问过的 URL 集合，防止重复访问。         max_depth: 最大递归深度。      Returns:         所有提取到的链接列表。     """     if max_depth == 0 or url in visited:         return []      visited.add(url)     href_links = extract_links_from(url)     links_list = []      for link in href_links:         link = urljoin(url, link.split("#")[0])  # 处理锚点链接         parsed_link = urlparse(link)         if parsed_link.netloc == domain and link not in visited:             links_list.append(link)             links_list.extend(crawl(link, domain, visited, max_depth - 1))     return links_list  # 示例用法 target_url = "https://www.free-power-point-templates.com/" parsed_url = urlparse(target_url) domain = parsed_url.netloc  result = crawl(target_url, domain) # 去重 result = list(set(result)) print(result)

代码详解

extract_links_from(url) 函数:
- 使用 requests.get(url) 获取网页内容。添加了 timeout 参数，防止请求超时。
- 检查 HTTP 状态码，如果不是 200，则返回空列表，避免处理错误页面。
- 使用 re.findall() 和正则表达式 r'(?:href=”)(.*?)”‘ 提取所有 href 属性的值。
- 对网页内容进行解码，指定编码为’utf-8’，并忽略解码错误，防止因编码问题导致程序崩溃。
crawl(url, domain, visited=set(), max_depth=5) 函数:
- 递归终止条件: 当达到最大深度 max_depth 或 URL 已经访问过时，停止递归。
- 使用 visited 集合来跟踪已经访问过的 URL，防止无限循环。
- 使用 urljoin() 函数将相对 URL 转换为绝对 URL。
- 使用 urlparse() 函数解析 URL，获取域名，用于过滤外部链接。
- 递归调用 crawl() 函数，并将 max_depth 减 1。

注意事项

robots.txt: 在抓取网站之前，请务必查看网站的 robots.txt 文件，了解网站的爬取规则。
频率限制: 不要过于频繁地访问网站，以免给服务器带来过大的压力。可以添加延时，例如 time.sleep(1)。
异常处理: 增加异常处理机制，例如处理 requests.exceptions.RequestException 异常。
编码问题: 确保正确处理网页的编码，避免出现乱码。
最大深度: 设置合适的 max_depth，避免爬虫陷入过深的链接中。
去重: 递归爬取后，结果中可能存在重复链接，可以使用 set() 进行去重。

总结

本文介绍了如何使用 Python 的 requests 和 re 模块递归地提取网站上的所有链接。通过添加终止条件、使用 visited 集合、处理异常和设置最大深度，可以有效地解决无限循环的问题，并确保程序能够正确地抓取链接。在实际应用中，请务必遵守网站的爬取规则，并合理设置爬取频率，以免给服务器带来不必要的负担。

立即学习“Python免费学习笔记（深入）”；

发表于：后端开发

2025-10-31

# .net # ai # app # href # http # python # 循环 # 正则表达式 # 爬虫 # 状态码 # 编码 # 网络爬虫 # 递归

复制链接

.csproj项目文件是什么 MSBuild的XML结构解析

Scrapy CSS选择器失效：深入理解浏览器与爬虫获取HTML内容的差异

python切片如何进行索引

c++怎么将两个vector合并_c++ vector合并技巧【教程】

Python中类变量的唯一性：深入理解描述符与实例属性

使用 Python 递归提取网站所有链接

递归爬取网站链接

代码实现

代码详解

注意事项

总结

css 元素位移动画抖动怎么办_使用 transform translate 替代 top left

PHP变量怎么在类中使用_PHP类中变量定义指南【方法】

mysql UNION ALL和UNION区别是什么_mysql集合去重原理

如何彻底消除 Flexbox 布局中意外的行间间隙？

PHP分页怎么用API分页令牌_PHP分页令牌安全机制【方法】

Golang Playground环境模拟_本地搭建Go代码运行沙箱

CSS Grid 实现三列响应式汽车卡片布局（告别浮动陷阱）

composer怎么解决2g内存限制_composer超大内存占用优化

Laravel中怎么设置全局变量_Laravel View Share共享数据【技巧】

Linux 高可用架构安全与防护实践