awk是linux强大的工具,由于awk极其灵活因此很难一下吃透,需要多多使用磨练。今天展现一个match正则匹配的例子。
目的:将B站中视频集合的地址取出
如图所示:视频地址都类似“www.bilibili.com/video/BV1KW411z7sv”。
awk 'BEGIN{RS="<a ";}{match($2,/(www.*)\"/,a);print a[1]}' b.txt
解释:RS为行分隔符,本例中将行分割符改为“<a ”,数据经过BEGIN{RS="<a "; }将被整理为类似如下格式:
data-v-53490a4f="" href="//www.bilibili.com/video/BV1B541167rq"......
target="_blank" href="//www.bilibili.com/video/BV1B541167rq"......
我们仅需要$2即可($2为第二列,awk默认列分割符为空格),$2的内容如下:
href="//www.bilibili.com/video/BV1TZ4y1j7gK"
href="//www.bilibili.com/video/BV1TZ4y1j7gK"
href="//www.bilibili.com/video/BV1B541167rq"
href="//www.bilibili.com/video/BV1B541167rq"
href="//www.bilibili.com/video/BV15W411d7db"
href="//www.bilibili.com/video/BV15W411d7db"
href="//www.bilibili.com/video/BV1wW411o7zr"
由于$2的信息还不是类似:www.bilibili.com/video/BV1wW411o7zr
的视频地址信息,我们还需借助match进行正则匹配,将地址匹配出来。
match函数用法如下:
match(string,regexp,array)
没有array的情况下:通过regexp,在string中寻找最左边,最长的substring,返回substring的index位置。
有array的情况下:在regexp中用()将要组成的array的内容按顺序弄好,a[1]代表第一个()的内容,a[2]代表第二个()的内容,以此类推。
本例中:match($2,/(www.*)\"/,a) 采用array,只有一个(),因此a[1]中内容就是视频地址。print a[1]就得到需要的视频地址。
最后,细心读者会发现地址有重复行,可以调用uniq去重即可,本例就不再演示,uniq使用可以查查本人前期文章。