Python 正则匹配中的贪婪与非贪婪陷阱

9次阅读

.**? 是非贪婪匹配，遇结束符即停；.** 默认贪婪，会匹配到末尾。需根据需求选择模式，并优先用精确字符类替代 .*，避免回溯灾难和结构误解析。

为什么 `.*` 总是匹配到末尾而不是最近的结束符

因为 .* 默认贪婪，它会尽可能多地吞掉字符，直到整个字符串末尾或无法继续匹配为止。比如想从 "start<a>text1</a>middle<a>text2</a>end" 中提取第一个 <a>...</a>，用 r'<a>.*</a>' 实际会匹配到 <a>text1</a>middle<a>text2</a> —— 它没停在第一个，而是跑到了最后一个。

解决方法很简单：在量词后加 ?，改成非贪婪模式。

.*? 匹配任意字符（除换行），但尽可能少
.*（无问号）是贪婪的，.*? 才是你真正想要的“遇到就停”行为
注意：. 默认不匹配换行符，跨行需加 re.DOTALL 标志，否则 .*? 也会被换行卡住

`re.findall` 返回空列表？检查是否用了贪婪量词吃掉了分隔结构

常见于解析日志、HTML 片段或自定义标记时，比如用 re.findall(r'<div>(.*?)</div>', text) 却返回空——很可能是因为 text 中有嵌套 <div> 或中间混入了未转义的 <code>

发表于：web前端

2026-02-16

复制链接

css 选择器在大型项目中如何管理_工程化实践说明

javascript如何遍历对象_有哪些方法可用

如何添加HTML首页跳转_主页自动重定向设置【教程】

如何在html中插一个五角星

CSS响应式文本截断技巧_在不同空间下显示单行或多行省略

Python 正则匹配中的贪婪与非贪婪陷阱

为什么 `.*` 总是匹配到末尾而不是最近的结束符

`re.findall` 返回空列表？检查是否用了贪婪量词吃掉了分隔结构

Python中模块与类同名导致的AttributeError解决方案

Python 网络服务稳定性设计思路

Linux 下使用 pynput 监听全局键盘事件失败的根源与解决方案

如何实现一个基础的表单验证功能_前端表单验证代码示例

如何在 React 中正确实现子组件向父组件传递交互逻辑

PHP 中的 self 返回类型详解：实现链式调用与类型安全

Linux服务启动慢原因_启动耗时分析方法

mysql权限管理适合新手学习吗_mysql学习重点说明

CSS如何实现浮动布局下的等高模拟_利用padding-bottom与负margin配合css

Go 中同包内私有函数的可见性机制详解

Python 正则匹配中的贪婪与非贪婪陷阱

为什么 .* 总是匹配到末尾而不是最近的结束符

re.findall 返回空列表？检查是否用了贪婪量词吃掉了分隔结构

为什么 `.*` 总是匹配到末尾而不是最近的结束符

`re.findall` 返回空列表？检查是否用了贪婪量词吃掉了分隔结构