BeautifulSoup 提取 Genius 歌词不全?原因与完整解决方案

1次阅读

BeautifulSoup 提取 Genius 歌词不全?原因与完整解决方案

使用 beautifulsoup 解析 Genius 网站歌词时,find() 仅返回首个匹配的 ,而其歌词被拆分在多个 Lyrics__Container 类的 div 中,需改用 find_all() 并合并所有文本。

使用 beautifulsoup 解析 genius 网站歌词时,`find()` 仅返回首个匹配的 `

`,而其歌词被拆分在多个 `lyrics__container` 类的 div 中,需改用 `find_all()` 并合并所有文本。

Genius 网站为提升可维护性与响应式渲染,将长篇歌词(尤其是含 Verse/Chorus/Refrain 等结构化段落)动态拆分为多个

元素,每个均带有以 Lyrics__Container 开头的 CSS 类名(如 Lyrics__Container-sc-13h76k4-0 kxvKfE)。这是关键设计细节——并非 HTML 结构异常,而是有意为之的多容器布局

你原代码中使用:

div = soup.find("div", class_=lambda value: value and re.search(r'^Lyrics__Container', value))

find() 方法仅定位并返回第一个匹配的元素,因此只能提取首段(通常为 Verse 1 至 Verse 2),后续容器被完全忽略。

✅ 正确做法是使用 find_all() 获取全部匹配容器,并逐个提取文本后拼接:

from bs4 import BeautifulSoup import re import requests  song_api_path = '/Taylor-swift-cardigan-lyrics' page_url = "https://genius.com" + song_api_path  # 注意:应使用 https 而非 http(Genius 强制 HTTPS) headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}  # 避免 403 page = requests.get(page_url, headers=headers) soup = BeautifulSoup(page.text, "html.parser")  # 查找所有 Lyrics__Container 类的 div(注意:是 find_all,不是 find) divs = soup.find_all("div", class_=lambda value: value and re.search(r'^Lyrics__Container', value))  # 合并所有容器的文本,用双换行分隔不同段落,增强可读性 all_text = 'nn'.join(div.get_text(separator='n').strip() for div in divs)  print(all_text)

? 关键注意事项:

  • 必须用 find_all():确保无遗漏任何容器;
  • 添加 User-Agent 请求头:Genius 会拦截无头浏览器请求(否则可能返回空页或 403 错误);
  • 使用 https:// 协议:http://genius.com 会重定向,但显式使用 HTTPS 更可靠;
  • .strip() 清理每段首尾空白:避免因 HTML 冗余空格导致多余空行;
  • ⚠️ 避免过度依赖正则匹配类名:若未来 Genius 改变类命名规则(如去掉前缀),建议结合更稳定的结构特征(如父容器 ID #lyrics-root 或 data-lyrics-container 属性)做兜底定位。

? 进阶提示:若需保留原始段落语义(如自动识别 [Verse 1]、[Chorus] 标签),可在 get_text() 后辅以正则清洗或使用 div.find_all([‘br’, ‘span’, ‘a’]) 进行结构化提取——但对纯歌词抓取,上述方案已稳定覆盖 99% 场景。

综上,问题本质不是 BeautifulSoup “失效”,而是对目标 dom 结构理解偏差。掌握 find() 与 find_all() 的语义差异,并结合网站实际 HTML 组织方式,即可高效、鲁棒地提取完整内容。

text=ZqhQzanResources