一、正则表达式
正则表达式就是匹配数据的一个规则
正则所面对的数据一定是字符串
二、re模块
1.findall方法
①\d \d+ @
代码:
import re
str1="12345678@qq.com "
#\d是整数的概括 \d+是连续的整数
#@是具体的一个符号
par1= "\d\d"
par2= "\d\d@"#和数字有关
par3="(\d+)@" #拿取邮箱号中的QQ号
a=re.findall(par1,str1)
b=re.findall(par2,str1)
c=re.findall(par3,str1)
print(a)
print(b)
print(c)
运行结果:
②(\d+)@...
代码:
import re
str1="12345678@qq.com 99999999@163.com"
par= "(\d+)@qq" #拿取qq邮箱号中的qq号
a=re.findall(par,str1)
print(a)
运行结果:
③[ ]
代码:
import re
str4 = 'hEllo 张三天天在玩4399小游戏,张三 hello 玩的.h1llo很开心 h4llo world张'
#.匹配任意字符,一定是一个存在的字符,不能是空的
print(re.findall(r"张.",str4))
print(re.findall(r"h[eop123]llo",str4))#中括号中出现任意字符的数据
print(re.findall(r"h[0-9]llo",str4))
print(re.findall(r"h[\d]llo",str4))
print(re.findall(r"h[a-zA-Z]llo",str4))
#字母a-z大写A-Z,数字0-9中的任意一个都匹配
print(re.findall(r"h[a-zA-Z0-9]llo",str4))
运行结果:
2.match方法
代码:
#match方法 字符串起始位置,如果没有匹配到,返回None
import re
str2 = "python123123java"
par="python\d+"
#span是该数据的一个索引区间 match是具体是匹配的数据
s1=re.match(par,str2)
print(s1.group()) #返回具体的一个结果
print(s1.group().replace("python",""))#只取数字
print(s1.group()[6:])
运行结果:
3.search方法
代码:
import re
str3 = "python123java123"
par=r"\d+"
s2=re.search(par,str3)
print(s2)
print(s2.group())
print(s2.span()) #数据类型是一个元组
运行结果:
三、元字符
1.单字符匹配
2.代表数量的元字符
3.代表边界的元字符
4.分组匹配
四、贪婪和非贪婪
代码:
import re
a = '<img src = "xiaomeimei.jpg" alt="这是图片"> <img src="http://www.baidu.com">'
b = '<html>000</html><td>ddd</td>'
print(re.findall(r"<(.*)>",a)) #属于贪婪匹配,找到最后一个>
print(re.findall(r"<(.*?)>",a))#属于非贪婪匹配,找一个匹配的规则就立马停止,然后再找
运行结果: