最近开始学Python的爬虫,是在这个博客跟着学习的,该博主用的是Python 2.7版本,而我使用的是3.5版本,很多不兼容的地方,不过没关系,自己改改就好了。
我们想针对网站的内容进行筛选,只获取自己感兴趣的部分。比如你想在XX网站把小黄图筛选出来,打包带走。这里只做简单的实现,以百思不得姐上的段子(纯文本)为例。我们想要实现如下功能:
批量下载若干页段子到本地文件中
按下任意一键,开始阅读下一条段子
1. 获取网页代码
导入 urllib 的相关库,Python 3中应该这样写:
import urllib.requestimport urllib.parseimport re声明:本文来自网络,不代表【好得很程序员自学网】立场,转载请注明出处:http://www.haodehen.cn/did82066
Python爬虫初学之爬取段子
阅读:39次