Python爬虫：HTTP协议、Requests库

HTTP协议：

HTTP（Hypertext Transfer Protocol）：即超文本传输协议。URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。

HTTP协议对资源的操作：

Requests库提供了HTTP所有的基本请求方式。官方介绍：

Requests库的6个主要方法：

Requests库的异常：

Requests库的两个重要对象：Request（请求）、Response（相应）。Request对象支持多种请求方法；Response对象包含服务器返回的所有信息，也包含请求的Request信息。

Response对象的属性：

其中，r.encoding指：如果header中不存在charset，则认为编码为ISO‐8859‐1。

r.raise_for_status()可以直接知道r.status_code是否等于200。

HTTP协议与Requests库对比：

爬取网页的通用代码框架：

1 try:2     r = requests.get(url,timeout = 30)3     r.raise_for_status()4     # 如果状态不是200，引发HTTPError异常5     r.encoding = r.apparent_encoding6     return r.text7 except:8     return '产生异常'

查看更多关于Python爬虫：HTTP协议、Requests库的详细内容...

声明：本文来自网络，不代表【好得很程序员自学网】立场，转载请注明出处：http://www.haodehen.cn/did82061

更新时间：2022-10-19 阅读：118次