好得很程序员自学网

<tfoot draggable='sEl'></tfoot>

Scrapy教程--某网站前N篇文章抓取

一、前3000名人员列表页

  2)分析页面结构:每一个td都是,一个人员。

      第一个small为排名

      第二个a标签是昵称和用户名,以及首页的博客地址。用户名通过地址截取获取

      第四个small标签是,博客数量以及积分,通过字符串分离后可以逐个获取到。

  3)代码:使用xpath获取标签及相关的内容,获取到首页博客地址后,发送请求。

def parse(self, response):
for i in response.xpath("//table[@width='90%']//td"):
item = CnblogsItem()
item['top'] = i.xpath(
"./small[1]/text()").extract()[0].split('.')[-2].strip()
item['nickName'] = i.xpath("./a[1]//text()").extract()[0].strip()
item['userName'] = i.xpath(
"./a[1]/@href").extract()[0].split('/')[-2].strip()
totalAndScore = i.xpath(
"./small[2]//text()").extract()[0].lstrip('(').rstrip(')').split(',')
item['score'] = totalAndScore[2].strip()
# print(top)
# print(nickName)
# print(userName)
# print(total)
# print(score)
# return
yield scrapy.Request(i.xpath("./a[1]/@href").extract()[0], meta={'page': 1, 'item': item},
callback=self.parse_page)

查看更多关于Scrapy教程--某网站前N篇文章抓取的详细内容...

  阅读:42次