<tfoot draggable='sEl'></tfoot>

Scrapy教程--某网站前N篇文章抓取

一、前3000名人员列表页

　　2）分析页面结构：每一个td都是，一个人员。
　　　　　　第一个small为排名
　　　　　　第二个a标签是昵称和用户名，以及首页的博客地址。用户名通过地址截取获取
　　　　　　第四个small标签是，博客数量以及积分，通过字符串分离后可以逐个获取到。

　　3）代码：使用xpath获取标签及相关的内容，获取到首页博客地址后，发送请求。
def parse(self, response):
for i in response.xpath("//table[@width='90%']//td"):
item = CnblogsItem()
item['top'] = i.xpath(
"./small[1]/text()").extract()[0].split('.')[-2].strip()
item['nickName'] = i.xpath("./a[1]//text()").extract()[0].strip()
item['userName'] = i.xpath(
"./a[1]/@href").extract()[0].split('/')[-2].strip()
totalAndScore = i.xpath(
"./small[2]//text()").extract()[0].lstrip('(').rstrip(')').split(',')
item['score'] = totalAndScore[2].strip()
# print(top)
# print(nickName)
# print(userName)
# print(total)
# print(score)
# return
yield scrapy.Request(i.xpath("./a[1]/@href").extract()[0], meta={'page': 1, 'item': item},
callback=self.parse_page)

查看更多关于Scrapy教程--某网站前N篇文章抓取的详细内容...

声明：本文来自网络，不代表【好得很程序员自学网】立场，转载请注明出处：http://www.haodehen.cn/did82045

更新时间：2022-10-19 阅读：71次

上一篇：利用Python抓取花瓣网美图实例

下一篇：利用python5分钟做个图片自动下载器