python 正则表达式贪婪模式与非贪婪模式原理、用法实例分析

所属分类：脚本专栏 / python 阅读数： 196

收藏 0赞 0分享

本文实例讲述了python 正则表达式贪婪模式与非贪婪模式原理、用法。分享给大家供大家参考，具体如下：

之前未接触过正则表达式，今日看python网络爬虫的源码，里面一行正则表达式匹配的代码初看之下，不是很理解，代码如下：

myItems = re.findall('<div.*?class="content".*?title="(.*?)">(.*?)</div>',unicodePage,re.S)

“.*?”这种匹配方式，按理解应该是匹配任意字符0个或多个（re.S模式，“.”可以匹配“\n”），但是这个“？”总觉的在这儿是多余的，既然不理解，就敲代码试试：

import re
patern = re.compile('www\..*')
match1 = patern.match("www.baidu.com")
if match1:
  print(match1.group())
else:
  print("match1 don't match")
#output
>>> ==================RESTART =============================
>>> 
www.baidu.com

这个结果，应该说是意料之中，加个“？”呢？

import re
patern = re.compile('www\..*?')
match1 = patern.match("www.baidu.com")
if match1:
  print(match1.group())
else:
  print("match1 don't match")
#output
>>> ==================RESTART =============================
>>> 
www.

竟然是这个结果。。。“.?”一个字符都没匹配，按“.”、“”、“?”的匹配理解，也就是“*”“？”均匹配前面字符0次，才会是这个结果，可是为啥就是0次了？

这就是正则表达式贪婪模式和非贪婪模式：

贪婪模式，总是尝试匹配尽可能多的字符；
非贪婪模式则相反，总是尝试匹配尽可能少的字符。

Python里数量词默认是贪婪的，这就解释了第一个匹配实验，输出结果为”www.baidu.com”（贪婪模式），也就是说第二个匹配实验是非贪婪模式，仅仅因为加了“？”，继续实验

import re
patern = re.compile('www\..?')
match1 = patern.match("www.baidu.com")
if match1:
  print(match1.group())
else:
  print("match1 don't match")
#output
>>> ==================RESTART =============================
>>> 
www.b

此次匹配结果，显然是贪婪模式。奇怪了，也就是“？”的特殊组合才是非贪婪模式。

网上搜索得如下说明：

标准量词修饰的子表达式，在可匹配可不匹配的情况下，总会先尝试进行匹配，称这种方式为匹配优先，或者贪婪模式。此前介绍的一些量词，“{m}”、“{m,n}”、“{m,}”、“?”、“*”和“+”都是匹配优先的。
一些NFA正则引擎支持忽略优先量词，也就是在标准量词后加一个“?”，此时，在可匹配可不匹配的情况下，总会先忽略匹配，只有在由忽略优先量词修饰的子表达式，必须进行匹配才能使整个表达式匹配成功时，才会进行匹配，称这种方式为忽略优先，或者非贪婪模式。忽略优先量词包括“{m}?”、“{m,n}?”、“{m,}?”、“??”、“*?”和“+?”。

显然“*？”的组合是非贪婪模式，猜想正确，原来如此啊。

PS：这里再为大家提供2款非常方便的正则表达式工具供大家参考使用：

JavaScript正则表达式在线测试工具：
http://tools.jb51.net/regex/javascript

正则表达式在线生成工具：
http://tools.jb51.net/regex/create_reg

更多关于Python相关内容可查看本站专题：《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

更多精彩内容其他人还在看