BeautifulSoup 网页作者与单位信息精准提取教程

9次阅读

BeautifulSoup 网页作者与单位信息精准提取教程

本文详解如何使用 beautifulsoup 高效、鲁棒地提取科研文章中作者名与所属单位(affiliation)信息,解决嵌套结构遍历、缺失数据处理及 class 定位失效等常见爬虫难题。

在网页结构化数据抓取中,作者与单位信息常以 形式成对或非严格邻接出现。初学者易陷入“暴力遍历所有 ”的误区(如第一段代码),导致 find() 返回 None——根本原因在于:未限定搜索范围,目标元素被大量无关 干扰,且 tar.find(…) 在错误上下文中执行

正确做法是先定位语义容器,再精准提取。观察目标页面(如 https://rpmgf.pt/…/13494),作者区块实际包裹在

内。因此应优先用 SoupStrainer 仅解析该区域,大幅提升效率与准确性:

from bs4 import BeautifulSoup, SoupStrainer import requests  # 仅解析作者区块,跳过整个 DOM 解析 STRAINER = SoupStrainer(name='section', class_='item authors')  def get_author_data(article_id: int) -> list[tuple[str, str | None]]:     url = f"https://rpmgf.pt/ojs/index.php/rpmgf/article/view/{article_id}"     with requests.get(url) as r:         r.raise_for_status()         # 使用 parse_only 显著加速解析         soup = BeautifulSoup(r.text, 'lxml', parse_only=STRAINER)      authors = []     for name_tag in soup.find_all('span', class_='name'):         name = name_tag.get_text(strip=True)         # 在 name_tag 后续兄弟节点中查找最近的 affiliation         affiliation = None         for sibling in name_tag.next_siblings:             if sibling.name == 'span' and 'affiliation' in (sibling.get('class') or []):                 affiliation = sibling.get_text(strip=True)                 break             elif sibling.name == 'span' and 'name' in (sibling.get('class') or []):                 # 遇到下一个作者,说明当前作者无 affiliation                 break         authors.append((name, affiliation))     return authors  # 使用示例 for name, aff in get_author_data(13494):     print(f"{name} → {aff or '[无单位]'}")

✅ 关键优化点说明:SoupStrainer 过滤无效 html,避免内存浪费与误匹配;next_siblings 替代全局 find_all(‘span’, class_=’affiliation’),确保 affiliation 与 author 的逻辑归属关系;对 class_ 属性使用 in (sibling.get(‘class’) or []) 安全判断,兼容 class=None 或空列表;get_text(strip=True) 自动清理换行符与多余空格,无需额外 strip()。

对于“部分作者缺失 affiliation”的边界情况(如 article 13545),上述逻辑通过 break 提前终止搜索,并自然赋值 None,完全规避 zip() 导致的长度不匹配错误。若需导出 csv,可安全写入:

import csv  with open("authors.csv", "w", newline="", encoding="utf-8") as f:     writer = csv.writer(f)     writer.writerow(["Author", "Affiliation"])     for name, aff in get_author_data(13494):         writer.writerow([name, aff or ""])

总结:BeautifulSoup 抓取的核心不是“找所有标签”,而是“理解 dom 结构层级”。始终遵循「容器定位 → 子元素遍历 → 邻近关系验证」三步法,配合 SoupStrainer 和 next_siblings 等精准 API,即可稳健应对复杂学术网页的作者信息提取任务。

text=ZqhQzanResources