用 BeautifulSoup 替代正则表达式安全解析 HTML 食谱数据

1次阅读

本文详解为何正则表达式在解析嵌套、动态或不规范的 html（如 wprm 食谱）时容易失败，并推荐使用专业的 html 解析器 beautifulsoup，提供可复用、健壮、可维护的食谱成分提取方案。

本文详解为何正则表达式在解析嵌套、动态或不规范的 html（如 wprm 食谱）时容易失败，并推荐使用专业的 html 解析器 beautifulsoup，提供可复用、健壮、可维护的食谱成分提取方案。

正则表达式（Regex）虽擅长处理结构化文本，但本质上并不适合解析 HTML——因为 HTML 是一种上下文相关的标记语言，具有嵌套性、可选闭合标签、属性转义、注释、CDATA 区块及合法但“松散”的格式（如 … 内含其他标签或 HTML 实体）。你遇到的问题正是典型反例：在 WPRM 猪肉包食谱中，ingredient-amount 后的内容实际包含未转义的 </span> 实体、连续的标签嵌套，甚至跨标签的 HTML 实体（如表示空格），导致 r’ingredient-amount”>(.*?)‘ 这类贪婪/非贪婪匹配极易断裂或捕获过长内容，最终将本身误作普通文本残留于结果中。

更深层问题在于：你的原始逻辑先用 re.split(r’

并非总以

标签内常嵌套多层，而正则无法可靠识别标签边界与嵌套层级。这违背了“用正确工具解决正确问题”的工程原则。

✅ 推荐方案：改用 BeautifulSoup —— 一个专为 HTML/xml 设计的 Python 解析库，它能自动修复 malformed HTML、准确构建 dom 树、支持 CSS 选择器语法，并天然处理实体解码、空白规范化与标签嵌套。

以下是一个生产就绪的解析函数：

立即学习“前端免费学习笔记（深入）”；

from bs4 import BeautifulSoup import requests  def extract_wprm_ingredients(html: str) -> list[dict]:     """     从 WPRM 打印版 HTML 中提取标准化食谱成分信息。      返回列表，每个元素为字典，含键：'amount', 'unit', 'name', 'notes'     （缺失字段值为 None）     """     soup = BeautifulSoup(html, 'html.parser')  # 自动选择最优解析器（lxml/html.parser）      ingredients = []     base_class = "wprm-recipe-ingredient"      # 定位所有 ingredient 列表项（<li class="wprm-recipe-ingredient">）     for li in soup.select(f"li.{base_class}"):         item = {}         # 按子类名依次提取各字段         for field in ["amount", "unit", "name", "notes"]:             selector = f".{base_class}-{field}"             elem = li.select_one(selector)             item[field] = elem.get_text(strip=True) if elem else None          ingredients.append(item)      return ingredients  # 使用示例（需安装：pip install beautifulsoup4 requests） if __name__ == "__main__":     url = "https://www.php.cn/link/5c6ad0665a39798966cb1827da181daf"     response = requests.get(url)     response.raise_for_status()      result = extract_wprm_ingredients(response.text)     for i, ing in enumerate(result[:3], 1):         print(f"{i}. {ing['amount']} {ing['unit'] or ''} {ing['name']} {ing['notes'] or ''}".strip())

输出示例：

1. 2/3 cup heavy cream (at room temperature) 2. 1 cup milk (whole milk preferred, but you can use 2%, at room temperature) 3. 1/4 cup (60 ml) rice vinegar

? 关键优势说明：

鲁棒性强：自动处理 &, ,
、换行缩进、缺失标签等常见 HTML 变体；
语义准确：基于 DOM 结构定位（如 li.wprm-recipe-ingredient > span.wprm-recipe-ingredient-amount），而非脆弱的字符串模式；
可扩展性好：新增字段（如 notes 或自定义属性）只需追加字段名到循环中；
可读性高：CSS 选择器直观反映 HTML 结构，便于团队协作与后期维护。

⚠️ 注意事项：

若处理大量页面，请添加 requests.session() 复用连接、设置 User-Agent 头避免被拦截；
对离线 HTML 文件，直接传入字符串或文件对象即可（BeautifulSoup(open(“file.html”), “html.parser”)）；
如需极致性能，可将解析器切换为 lxml（pip install lxml），它比内置 html.parser 更快更容错；
切勿在未经验证的用户输入 HTML 上启用 exec 或 eval；BeautifulSoup 默认安全，无需额外 xss 防护。

总结：当目标是解析 HTML 时，正则表达式应作为最后手段（仅限简单、严格可控的片段）。拥抱专用解析器，既是代码健壮性的保障，也是专业开发者的成熟实践。

发表于：web3.0

近一天内

# beautifulsoup # dom # html # li # pip # Regex # session # xml # xss # 字符串 # 对象 # 循环 # 正则表达式 # 选择器

复制链接

加密货币永续交易VS现货交易：从入门到精通的全面指南

什么是RWA？它是如何运作的？为什么RWA的增长如此迅速？

Golang值类型在函数中如何返回_返回值拷贝机制说明

如何使用 sed 在匹配行前插入新行

XML上传时的内存溢出问题如何处理大型文件流避免OOM

用 BeautifulSoup 替代正则表达式安全解析 HTML 食谱数据

C++的std::string::reserve和std::vector::reserve的行为一致吗？ (字符串扩容细节)

Composer remove –no-interaction 非交互模式删除依赖【自动化】

CSS项目实战之代码块高亮展示_内边距、背景与字体设置

HTML5低版本浏览器能调用JS插件吗_版本差异兼容办法【汇总】

PHP解密必须用命令行吗_PHP解密命令行与图形界面操作【说明】

C++如何实现对象池的碎片整理机制？（周期性合并空闲块）

XML解析忽略命名空间 Java与Python去除xmlns属性的方法

Golang访问者模式(Visitor)_在不修改结构的前提下增加操作

如何使用 BeautifulSoup 精确提取 HTML 标签内结构化文本列表

Composer怎么生成类映射_Composer classmap自动加载配置【映射】