利用正则表达式将字符串分组示例代码

所属分类: 网络编程 / 正则表达式 阅读数: 405
收藏 0 赞 0 分享

前言

最近工作中遇到一个问题,需求是碰到'122333<<<<'这种字符串,要将其连贯的部分取出,得出['1', '22', '333', '<<<<']这样的列表,能想到的常规办法,遍历字符串,后一个与前一个逐个比较,这样真的很麻烦!又想到了另外两种方法,话不多说了,来一起看看详细的示例代码:

一、实际上可以借助itertools模块的groupby()方法来处理:

import itertools 
 
Str = '122333<<<<' 
Lst = [] 
for key,group in itertools.groupby(s): 
 Lst.append(list(group)) 
 
print map(lambda x: ''.join(x), Lst) 

上面的处理,还是比较有技巧,也能得到想要的输出结果

['1', '22', '333', '<<<<']

二、但更酷点,更技巧处理方式是用正则表达式来处理:

import re 
 
Str = '122333<<<<' 
Lst = [] 
 
Pat = re.compile(r'((.)\2*)') 
Rst = [x[0] for x in re.findall(Pat, Str)] 
 
print Rst 

备注:

      1. (.)                # .匹配任意字符;(.)做分组,方便后面反向引用

      2. \2*                # \2对里面括号的反向引用;*代表是0个到多个;

      3. ((.)\2*)           # 连起来就是任意一个或多个字符组成的分组;

      4. (.)\1*             # 这种方式则可以取出唯一的值['1', '2', '3', '<'];同样非常方便

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对脚本之家的支持。

更多精彩内容其他人还在看

正则表达式匹配 非XXX的行

问题:如何匹配"非:.+123.123.123.10.+ " 行
收藏 0 赞 0 分享

正则表达式不包含属性

一个标签里不包含某个属性 的 正则表达式的写法
收藏 0 赞 0 分享

ASP正则函数替换分页后的参数

在分页系统里面用到的把page后面得东西都给丢掉
收藏 0 赞 0 分享

asp match正则函数使用Matchs实例

asp matchs函数提供了对正则表达式匹配的只读属性的访问。一直都用这个函数,没想到本站竟然没有这类文章,汗一个,最近我会多加一些这样的文章
收藏 0 赞 0 分享

asp 图片正则 替换,替换前检查图片是不是本地地址的方法

这个图片正则先检查图片的地址,不是本地的则用本地的asp突破盗链,方便使用,注意是答chinaz的朋友问的一个问题
收藏 0 赞 0 分享

java正则表达式彻底研究

从J2SE1.4起Java增加了对正则表达式的支持就是java.util.regex包
收藏 0 赞 0 分享

正则表达式口诀 正则表达式学习工具

正则表达式口诀 + 常用的正则表达式 + 正则表达式学习工具+正则处理工具 正则是每个程序员绕不开的堡垒,只有把它攻下来。我觉得正则之所以难,第一难是需要记忆,第二难是要求具备抽象逻辑思维。
收藏 0 赞 0 分享

比较实用的正则表达式学习笔记

最近在学习正则,一些比较有用的东西怕忘记,记下来,比较乱,想一条记录一条
收藏 0 赞 0 分享

asp只采集网站可见文本的正则

它可以过虑Js 可以过滤 CSS 过滤HTML标识,只采集页面的可见文本。
收藏 0 赞 0 分享

asp.net常用正则表达式

比较常用的多种语言支持的正则整理收集
收藏 0 赞 0 分享
查看更多