python爬虫入门（5）--正则表达式实例教程

要想做爬虫，不可避免的要用到正则表达式，如果是简单的字符串处理，类似于split，substring等等就足够了，可是涉及到比较复杂的匹配，当然是正则的天下，下面这篇文章主要给大家介绍了python爬虫之正则表达式的相关资料，需要的朋友可以参考下。

前言

正则表达式处理文本有如疾风扫秋叶，绝大部分编程语言都内置支持正则表达式，它应用在诸如表单验证、文本提取、替换等场景。爬虫系统更是离不开正则表达式，用好正则表达式往往能收到事半功倍的效果。

介绍正则表达式前，先来看一个问题，下面这段文本来自豆瓣的某个网页链接，我对内容进行了缩减。问：如何提取文本中所有邮箱地址呢？

html = """
  <style>
   .qrcode-app{
    display: block;
    background: url(/pics/qrcode_app4@2x.png) no-repeat;
   }
  </style>

  <p class="reply-doc content">
   <p class="">34613453@qq测试数据，谢谢了</p>
   <p class="">30604259@qq测试数据麻烦楼主</p>
  </p>
  <p class="">490010464@163测试数据<br/>谢谢</p>
  """

如果你还没接触过正则表达式，我想对此会是一筹莫展，不用正则，似乎想不到一种更好的方式来处理，不过，我们暂且放下这个问题，待学习完正则表达式之后再来考虑如何解决。

字符串的表现形式

Python 字符串有几种表现形式，以u开头的字符串称为Unicode字符串，它不在本文讨论范围内，此外，你应该还看到过这两种写法：

>>> foo = "hello"
>>> bar = r"hello"

>>> foo is bar
True
>>> foo == bar
True

但是，如果字符串中包括有特殊字符，会是什么情况呢？再来看一个例子：

>>> foo = "\n"
>>> bar = r"\n"

>>> foo, len(foo)
('\n', 1)
>>> bar, len(bar)
('\\n', 2)
>>> foo == bar
False
>>>

>>> foo = "\\b"
>>> bar = r"\b"
>>> foo == bar
True

>>> rex = r"a.d" # 正则表达式文本
>>> original_str = "and" # 原始文本
>>> pattern = re测试数据pile(rex) # 正则表达式对象
>>> m = pattern.match(original_str) # 匹配对象
>>> m 
<_sre.SRE_Match object at 0x101c85b28>

# 等价于
>>> re.match(r"a.d", "and")
<_sre.SRE_Match object at 0x10a15dcc8>

>>> re.match(r"a.c", "abc").group()
'abc'
>>> re.match(r"a.c", "abcef").group()
'abc'
>>> re.match(r"1\.2", "1.2").group()
'1.2'
>>> re.match(r"a[0-9]b", "a2b").group()
'a2b'
>>> re.match(r"a[0-9]b", "a5b11").group()
'a5b'
>>> re.match(r"a[.*?]b", "a.b").group()
'a.b'
>>> re.match(r"abc[^\w]", "abc!123").group()
'abc!

>>> re.match(r"^abc","abc").group()
'abc'
>>> re.match(r"^abc$","abc").group()
'abc'

# 简单匹配身份证号码，前面17位是数字，最后一位可以是数字或者字母X
>>> re.match(r"\d{17}[\dX]", "42350119900101153X").group()
'42350119900101153X'

# 匹配5到12的QQ号码
>>> re.match(r"\d{5,12}$", "4235011990").group()
'4235011990'

逻辑分支

匹配一个固定电话号码，不同地区规则不一样，有的地方区号是3位，电话是8位，有的地方区号是4位，电话为7位，区号与号码之间用 - 隔开，如果应对这样的需求呢？这时你需要用到逻辑分支条件字符 |，它把表达式分为左右两部分，先尝试匹配左边部分，如果匹配成功就不再匹配后面部分了，这是逻辑 "或" 的关系

# abc|cde 可以匹配abc 或者 cde，但优先匹配abc
>>> re.match(r"aa(abc|cde)","aaabccde").group()
'aaabc'

0\d{2}-\d{8}|0\d{3}-\d{7} 表达式以0开头，既可以匹配3位区号8位号码，也可以匹配4位区号7位号码

>>> re.match(r"0\d{2}-\d{8}|0\d{3}-\d{7}", "0755-4348767").group()
'0755-4348767'
>>> re.match(r"0\d{2}-\d{8}|0\d{3}-\d{7}", "010-34827637").group()
'010-34827637'

分组

前面介绍的匹配规则都是针对单个字符而言的，如果想要重复匹配多个字符怎么办，答案是，用子表达式（也叫分组）来表示，分组用小括号"()"表示，例如 (abc){2} 表示匹配abc两次，匹配一个IP地址时，可以使用 (\d{1,3}\.){3}\d{1,3}，因为IP是由4组数组3个点组成的，所有，前面3组数字和3个点可以作为一个分组重复3次，最后一部分是一个1到3个数字组成的字符串。如：192.168.0.1。

关于分组，group 方法可用于提取匹配的字符串分组，默认它会把整个表达式的匹配结果当做第0个分组，就是不带参数的 group() 或者是 group(0)，第一组括号中的分组用group(1)获取，以此类推

>>> m = re.match(r"(\d+)(\w+)", "123abc")
＃分组０，匹配整个正则表达式
>>> m.group()
'123abc'
#等价
>>> m.group(0)
'123abc'
# 分组1，匹配第一对括号
>>> m.group(1)
'123'
# 分组2，匹配第二对括号
>>> m.group(2)
'abc'
>>>

通过分组，我们可以从字符串中提取出想要的信息。另外，分组还可以通过指定名字的方式获取。

# 第一个分组的名字是number
# 第二个分组的名字是char
>>> m = re.match(r"(?P<number>\d+)(?P<char>\w+)", "123abc")
>>> m.group("number")
'123'
# 等价
>>> m.group(1)
'123'

贪婪与非贪婪

默认情况下，正则表达式重复匹配时，在使整个表达式能得到匹配的前提下尽可能匹配多的字符，我们称之为贪婪模式，是一种贪得无厌的模式。例如： r"a.*b" 表示匹配 a 开头 b 结尾，中间可以是任意多个字符的字符串，如果用它来匹配 aaabcb，那么它会匹配整个字符串。

>>> re.match(r"a.*b", "aaabcb").group()
'aaabcb'

有时，我们希望尽可能少的匹配，怎么办？只需要在量词后面加一个问号" ？"，在保证匹配的情况下尽可能少的匹配，比如刚才的例子，我们只希望匹配 aaab，那么只需要修改正则表达式为 r"a.*?b"

>>> re.match(r"a.*?b", "aaabcb").group()
'aaab'
>>>

非贪婪模式在爬虫应用中使用非常频繁。比如之前在公众号「Python之禅」曾写过一篇爬取网站并将其转换为PDF文件的场景，在网页上涉及img标签元素是相对路径的情况，我们需要把它替换成绝对路径

>>> html = '<img src="/images/category.png"><img src="/images/js_framework.png">'

# 非贪婪模式就匹配的两个img标签
# 你可以改成贪婪模式看看可以匹配几个
>>> rex = r'<img.*?src="(.*?)">'
>>> re.findall(rex, html)
['/images/category.png', '/images/js_framework.png']
>>>

>>> def fun(match):
...  img_tag = match.group()
...  src = match.group(1)
...  full_src = "http://foofish.net" + src
...  new_img_tag = img_tag.replace(src, full_src)
...  return new_img_tag
...
>>> re.sub(rex, fun, html)
<img src="foofish.net/images/category.png"><img src="http://foofish.net/images/js_framework.png">

sub 函数可以接受一个函数作为替换目标对象，函数返回值用来替换正则表达式匹配的部分，在这里，我把整个img标签定义为一个正则表达式 r''， group() 返回的值是 <img src="/images/category.png"> ，而 group(1) 的返回值是 /images/category.png，最后，我用 replace 方法把相对路径替换成绝对路径。

到此，你应该对正则表达式有了初步的了解，现在我想你应该能解决文章开篇提的问题了。

正则表达式的基本介绍也到这里告一段落，虽然代码示例中用了re模块中的很多方法，但我还没正式介绍该模块，考虑到文章篇幅，我把这部分放在下篇，下篇将对re的常用方法进行介绍。

【相关推荐】

1. python爬虫入门（4）--详解HTML文本的解析库BeautifulSoup

2. python爬虫入门（3）--利用requests构建知乎API

3. python爬虫入门（2）--HTTP库requests

4. python爬虫入门（1）--快速理解HTTP协议

以上就是python爬虫入门（5）--正则表达式实例教程的详细内容，更多请关注Gxl网其它相关文章！

查看更多关于python爬虫入门（5）--正则表达式实例教程的详细内容...

声明：本文来自网络，不代表【好得很程序员自学网】立场，转载请注明出处：http://www.haodehen.cn/did82307

更新时间：2022-10-19 阅读：53次