一、前3000名人员列表页
2)分析页面结构:每一个td都是,一个人员。
第一个small为排名
第二个a标签是昵称和用户名,以及首页的博客地址。用户名通过地址截取获取
第四个small标签是,博客数量以及积分,通过字符串分离后可以逐个获取到。
3)代码:使用xpath获取标签及相关的内容,获取到首页博客地址后,发送请求。
def parse(self, response):
for i in response.xpath("//table[@width='90%']//td"):
item = CnblogsItem()
item['top'] = i.xpath(
"./small[1]/text()").extract()[0].split('.')[-2].strip()
item['nickName'] = i.xpath("./a[1]//text()").extract()[0].strip()
item['userName'] = i.xpath(
"./a[1]/@href").extract()[0].split('/')[-2].strip()
totalAndScore = i.xpath(
"./small[2]//text()").extract()[0].lstrip('(').rstrip(')').split(',')
item['score'] = totalAndScore[2].strip()
# print(top)
# print(nickName)
# print(userName)
# print(total)
# print(score)
# return
yield scrapy.Request(i.xpath("./a[1]/@href").extract()[0], meta={'page': 1, 'item': item},
callback=self.parse_page)
查看更多关于Scrapy教程--某网站前N篇文章抓取的详细内容...