四时宝库

程序员的知识宝库

python 内置模块re,正则(python re 正则)

一、简介

正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串

re模块是python独有的匹配字符串的模块,该模块种提供功能基于正则表达式实现的,对于字符串进行模糊匹配找到想要的内容信息,一般用于爬虫或者自动化测试前后端不分离项目

二、使用

import re

三、方法

  1. re.compile(pattern,flags=0):函数用于编译正则表达式,生成一个 Pattern 对象,需要跟findall(), search(), match()搭配使用
  • pattern:正则模型
  • falgs :匹配模式,比如忽略大小写,多行模式等
re.I 忽略大小写
re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
re.M 多行模式
re.S 即为’ . ‘并且包括换行符在内的任意字符(’ . ‘不包括换行符)
re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
re.X 为了增加可读性,忽略空格和’ # ‘后面的注释
  • 返回值: Pattern 对象
import re

reg = re.compile(r'.com')
print(reg.findall("asdasd.comqweqw"))
  1. re.findall(pattern,string,flags=0):找到符合正则的全部结果并返回
  • pattern:正则
  • falgs :匹配模式,比如忽略大小写,多行模式等
  • 返回值:符合正则的全部结果并返回
  1. re.match(pattern,string,flags=0):从头开始匹配 如果匹配不到就会返回None 并且匹配到一个就返回后面就不会匹配
  • pattern:正则
  • falgs :匹配模式,比如忽略大小写,多行模式等
  • 返回值:返回匹配结果match对象,需要使用 result.group()或者result.groups()解析结果
import re

content = 'i li2222ke mus3333ic'
pattern = re.compile("[a-zA-Z]+")#只匹配字母
result = pattern.match(content)
print(result.group())
print(result.groups())
  1. re.search(pattern,string,flags=0):和match()差不多,不同的就是可以不从0开始匹配,匹配一个结果就结束
  • pattern:正则
  • falgs :匹配模式,比如忽略大小写,多行模式等
  • 返回值:返回匹配结果match对象,需要使用 result.group()或者result.groups()解析结果
  1. re.finditer(pattern,string,flags=0):以迭代器的形式返回能匹配的全部Match对象
  • pattern:正则
  • falgs :匹配模式,比如忽略大小写,多行模式等
  • 返回值:以迭代器的形式返回能匹配的全部Match对象,需要循环调用Match对象的group()方法提取匹配的字符串
  1. re.split(pattern, string, maxsplit=0, flags=0):根据正则匹配分割字符串,返回分割后的一个列表
  • pattern:正则模型
  • string :要匹配的字符串
  • maxsplit:指定分割个数
  • flags :匹配模式
  1. re.sub(pattern, repl, string, count=0, flags=0):替换匹配成功的指定位置字符串
  • pattern:正则模型
  • repl :要替换的字符串
  • string :要匹配的字符串
  • count :指定匹配个数
  • flags :匹配模式
  1. re.subn(pattern, repl, string, count=0, flags=0):类似sub(),返回的是元组

四、其他

  1. 正则分组 ?P
import re
str='23232c'
result = re.search(r'(?P<id>\d+)(?P<name>[a-z])',str)
print(result.group('id'))
print(result.group('name'))
  1. Match对象
  • Match.string: 匹配时用到的文本
  • Match.re: 匹配时用到的Pattern对象
  • Match.pos: 正在表达式开始搜索的索引
  • Match.endpos: 正则表达式结束搜索的索引
  • Match.lastindex: 最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组,则返回None
  • Match.lastgroup: 最有一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组,则返回None
  • Match.group(groupName1,groupName2...): 获取一个或多个分组截获的字符串,如果传入多个参数,则以元组的形式返回
  • Match.groups([default]): 以元组形式返回全部分组截获的字符串,相当于group(1, 2...),default表示没有截获字符串的组的默认值,默认为None
  • Match.groupdict([default]): 返回有别名的组组成的字典,没有别名的组不在返回结果中
  • Match.start([group]): 返回指定的组截获的子串在文本中的起始索引,group默认为0
  • Match.end([group]): 返回指定的组截获的子串在文本中的结束索引,group默认为0
  • Match.span([group]): 返回(start(group), end(group))
  • Match.expand(template): 将匹配到的分组代入template中,可以使用 \id或者\g或者\g引用分组

发表评论:

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言
    友情链接