
本文详解如何使用 beautifulsoup 高效、鲁棒地提取科研文章中作者名与所属单位(affiliation)信息,解决嵌套结构遍历、缺失数据处理及 class 定位失效等常见爬虫难题。
在网页结构化数据抓取中,作者与单位信息常以 和 形式成对或非严格邻接出现。初学者易陷入“暴力遍历所有 ”的误区(如第一段代码),导致 find() 返回 None——根本原因在于:未限定搜索范围,目标元素被大量无关 干扰,且 tar.find(…) 在错误上下文中执行。
正确做法是先定位语义容器,再精准提取。观察目标页面(如 https://rpmgf.pt/…/13494),作者区块实际包裹在
from bs4 import BeautifulSoup, SoupStrainer import requests # 仅解析作者区块,跳过整个 DOM 解析 STRAINER = SoupStrainer(name='section', class_='item authors') def get_author_data(article_id: int) -> list[tuple[str, str | None]]: url = f"https://rpmgf.pt/ojs/index.php/rpmgf/article/view/{article_id}" with requests.get(url) as r: r.raise_for_status() # 使用 parse_only 显著加速解析 soup = BeautifulSoup(r.text, 'lxml', parse_only=STRAINER) authors = [] for name_tag in soup.find_all('span', class_='name'): name = name_tag.get_text(strip=True) # 在 name_tag 后续兄弟节点中查找最近的 affiliation affiliation = None for sibling in name_tag.next_siblings: if sibling.name == 'span' and 'affiliation' in (sibling.get('class') or []): affiliation = sibling.get_text(strip=True) break elif sibling.name == 'span' and 'name' in (sibling.get('class') or []): # 遇到下一个作者,说明当前作者无 affiliation break authors.append((name, affiliation)) return authors # 使用示例 for name, aff in get_author_data(13494): print(f"{name} → {aff or '[无单位]'}")
✅ 关键优化点说明:SoupStrainer 过滤无效 html,避免内存浪费与误匹配;next_siblings 替代全局 find_all(‘span’, class_=’affiliation’),确保 affiliation 与 author 的逻辑归属关系;对 class_ 属性使用 in (sibling.get(‘class’) or []) 安全判断,兼容 class=None 或空列表;get_text(strip=True) 自动清理换行符与多余空格,无需额外 strip()。
对于“部分作者缺失 affiliation”的边界情况(如 article 13545),上述逻辑通过 break 提前终止搜索,并自然赋值 None,完全规避 zip() 导致的长度不匹配错误。若需导出 csv,可安全写入:
import csv with open("authors.csv", "w", newline="", encoding="utf-8") as f: writer = csv.writer(f) writer.writerow(["Author", "Affiliation"]) for name, aff in get_author_data(13494): writer.writerow([name, aff or ""])
总结:BeautifulSoup 抓取的核心不是“找所有标签”,而是“理解 dom 结构层级”。始终遵循「容器定位 → 子元素遍历 → 邻近关系验证」三步法,配合 SoupStrainer 和 next_siblings 等精准 API,即可稳健应对复杂学术网页的作者信息提取任务。