python爬虫图片、操作excel

最近闲着看了潭州教育的在线直播课程，颇受老师讲课实用有感。只作为自己笔记学习，我们都知道学习一门编程都是先照抄，在创作。这里完全按照老师讲解，照抄作为学习。

　　1.pip list,可以查看本地安装。

　　1.爬取豆瓣妹子图，知道其地址，url = ' '。

　　2.查看网页源代码，F12，network，随便找个左边捕捉的网页信息，找到User-agent，目的主要是为了模仿浏览器登录，防止反爬虫。

找到element元素。我们要的是img标签，中的图片信息，src连接下载地址。

按照老师写所有代码

 1 import urllib 2 import urllib.request 3 from bs4 import BeautifulSoup 4 url = '' 5 x=0 6 #获取源码 7 #自定义函数 8 #User-Agent模拟浏览器进行访问，反爬虫 9 def crawl(url):10     headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3088.3 Safari/537.36'}11     req=urllib.request.Request(url,headers=headers)#创建对象12     page=urllib.request.urlopen(req,timeout=20)#设置超时13     contents=page.read()#获取源码14     #print (contents.decode())15     soup = BeautifulSoup(contents,'html.parser')#html.parser主要是解析网页的一种形式。16     my_girl=soup.find_all('img')#找到所有img标签17     # 5.获取图片18     for girl in my_girl:#遍历19         link=girl.get('src')#获取src20         print(link)21         global x#全局变量22         # 6.下载 urlretrieve23         urllib.request.urlretrieve(link,'image\%s.jpg'%x)#下载,urlretrieve(需要下载的，路径)24         x+=125         print('正在下载第%s张'%x)26 #7.多页27 for page in range(1,10):#range本身自动生成整数序列，爬取多页图片。28     #page+=129     url='{}'.format(page)#30     #url = 'http://HdhCmsTestdbmeinv测试数据/?pager_offset=%d' % page31     crawl(url)32 33 print('图片下载完毕')

查看更多关于python爬虫图片、操作excel的详细内容...

声明：本文来自网络，不代表【好得很程序员自学网】立场，转载请注明出处：http://www.haodehen.cn/did82020

更新时间：2022-10-19 阅读：54次