BeautifulSoup 提取 Genius 歌词不全？原因与完整解决方案

1次阅读

使用 beautifulsoup 解析 Genius 网站歌词时，find() 仅返回首个匹配的，而其歌词被拆分在多个 Lyrics__Container 类的 div 中，需改用 find_all() 并合并所有文本。

使用 beautifulsoup 解析 genius 网站歌词时，`find()` 仅返回首个匹配的 `

`，而其歌词被拆分在多个 `lyrics__container` 类的 div 中，需改用 `find_all()` 并合并所有文本。

Genius 网站为提升可维护性与响应式渲染，将长篇歌词（尤其是含 Verse/Chorus/Refrain 等结构化段落）动态拆分为多个

元素，每个均带有以 Lyrics__Container 开头的 CSS 类名（如 Lyrics__Container-sc-13h76k4-0 kxvKfE）。这是关键设计细节——并非 HTML 结构异常，而是有意为之的多容器布局。

你原代码中使用：

div = soup.find("div", class_=lambda value: value and re.search(r'^Lyrics__Container', value))

find() 方法仅定位并返回第一个匹配的元素，因此只能提取首段（通常为 Verse 1 至 Verse 2），后续容器被完全忽略。

✅ 正确做法是使用 find_all() 获取全部匹配容器，并逐个提取文本后拼接：

from bs4 import BeautifulSoup import re import requests  song_api_path = '/Taylor-swift-cardigan-lyrics' page_url = "https://genius.com" + song_api_path  # 注意：应使用 https 而非 http（Genius 强制 HTTPS） headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}  # 避免 403 page = requests.get(page_url, headers=headers) soup = BeautifulSoup(page.text, "html.parser")  # 查找所有 Lyrics__Container 类的 div（注意：是 find_all，不是 find） divs = soup.find_all("div", class_=lambda value: value and re.search(r'^Lyrics__Container', value))  # 合并所有容器的文本，用双换行分隔不同段落，增强可读性 all_text = 'nn'.join(div.get_text(separator='n').strip() for div in divs)  print(all_text)

? 关键注意事项：

✅ 必须用 find_all()：确保无遗漏任何容器；
✅ 添加 User-Agent 请求头：Genius 会拦截无头浏览器请求（否则可能返回空页或 403 错误）；
✅ 使用 https:// 协议：http://genius.com 会重定向，但显式使用 HTTPS 更可靠；
✅ .strip() 清理每段首尾空白：避免因 HTML 冗余空格导致多余空行；
⚠️ 避免过度依赖正则匹配类名：若未来 Genius 改变类命名规则（如去掉前缀），建议结合更稳定的结构特征（如父容器 ID #lyrics-root 或 data-lyrics-container 属性）做兜底定位。

? 进阶提示：若需保留原始段落语义（如自动识别 [Verse 1]、[Chorus] 标签），可在 get_text() 后辅以正则清洗或使用 div.find_all([‘br’, ‘span’, ‘a’]) 进行结构化提取——但对纯歌词抓取，上述方案已稳定覆盖 99% 场景。

综上，问题本质不是 BeautifulSoup “失效”，而是对目标 dom 结构理解偏差。掌握 find() 与 find_all() 的语义差异，并结合网站实际 HTML 组织方式，即可高效、鲁棒地提取完整内容。

发表于：web3.0

近一天内

复制链接

收到不明空投NFT/Token？千万别点！新型骗局解析

Curve DAO(CRV)币在Robinhood上市：治理提案后价格上涨，能突破1美元吗？

Python 为什么不需要手动释放内存？

币圈主流交易所手续费对比，哪个交易所手续费最低？

如何让HTML中的div元素在页面上正确显示

BeautifulSoup 提取 Genius 歌词不全？原因与完整解决方案

Phalcon 5 中 POST 请求无法获取 JSON 数据的原因与解决方案

vsftpd 530 Login incorrect 但密码正确的 PAM / shell 配置坑

Composer生成自动加载文件_Composer dump-autoload优化技巧【优化】

C# 反射调用方法方法 C#如何使用MethodInfo.Invoke动态调用方法

mysql升级过程中常见错误如何处理_mysql升级错误处理方法

C++如何实现泛型链表？（模板类设计）

C++怎么实现KMP算法_C++字符串匹配优化【文本】

C++如何使用std::is_integral判断整数类型？（类型分类逻辑）

Laravel怎么实现验证码登录_Laravel生成图片验证码功能【插件】

Golang初级实战：多线程下载器_实现并发下载与进度条显示