Python爬虫入门心得分享

网络爬虫是一种自动获取网页内容的程序，是搜索引擎的重要组成部分。网络爬虫为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫。

grequests：异步的requests

BeautifulSoup：HTML、XML操作解析库

lxml：另一种处理 HTML、XML的方式

tornado：异步网络框架

Gevent：异步网络框架

Scrapy：最流行的爬虫框架

pyspider：爬虫框架

xmltodict：xml转换成字典

pyquery：像jQuery一样操作HTML

Jieba ：分词

SQLAlchemy：ORM框架

celery ：消息队列

rq：简单消息队列

python-goose ：从HTML中提取文本

书籍推荐：

《图解HTTP》

《HTTP权威指南》

《计算机网络：自顶向下方法》

《用Python写网络爬虫》

《Python网络数据采集》

《精通正则表达式》

《Python入门到实践》

《自己动手写网络爬虫》

《Crypto101》

《图解密码技术》

以上内容就是关于Python爬虫技术入门经验分享，希望能帮助到大家。