好得很程序员自学网

<tfoot draggable='sEl'></tfoot>

awesome-crawler

awesome-crawler 介绍

互联网爬虫,蜘蛛,数据采集器,网页解析器的汇总,因新技术不断发展,新框架层出不穷?

Python

Scrapy?- 一种高效的屏幕, 网页数据 采集框架。

django-dynamic-scraper?- 基于Scrapy内核由django Web框架开发的爬虫。

Scrapy-Re dis ?- 基于Scrapy内核采用Re dis 组件的爬虫。

scrapy-cluster?- 基于Scrapy内核采用Re dis 和 Kafka 开发的分布式爬虫框架。

distribute _crawler?- 基于Scrapy内核采用re dis ,mongodb开发的分布式爬虫框架。

pyspider?- 一个 强大纯python的数据采集系统.

cola?- 一个 分布式的爬虫框架.

Demiurge?- 基于PyQuery的微型爬虫框架.

Scrapely?- 一个 纯python的html 页面 捕捉库.

Feed parser?- 一个 通用的 Feed 解析器.

you-get?- 静 默 网站爬去下载器.

Grab?- 网站采集框架.

MechanicalSoup?- 一个 自动 化的互动网站Python库.

portia?- 基于Scrapy的可视化数据采集框架.

crawley?- 基于非阻塞通信(NIO)的 Python爬虫 框架.

Robo bro wser?- 一个 简单的,不基于Web浏览器的基于Python的Web 浏览器.

MSpider?- 一个 基于gevent(协程网络库)的 Python爬虫 .

bro wnant?- 一个 轻量级的网络数据抽取框架.

Java

Apache Nutch?- 用于生产环境的高度可扩展的高度可扩展的网络爬虫.

anthelion?- 一个 基于Apache Nutch抓取语义注释在html 页面 插件 .

Crawler4j?- 简单和轻量级的网络爬虫.

JSoup?- 采集,分析,处理和清洗html 页面 .

webs phinx ?- html网站特定的处理、信息 提取 .

Open Search Server?- 全套 搜索 功能 ,建立你自己的索引策略。分析、 提取 全文数据,这个框架可以索引的一切.

Gecco?- 一个 易于使用的轻量级网络爬虫.

WebCollector?-简单的抓取网页的界面,可以在不到5分钟内部署 一个 多线程的网络爬虫.

Webmagic?- 一个 可扩展的爬虫框架.

Spiderman?- 一个 可扩展的,多线程的网络爬虫.

Spiderman2?- 分布式网络爬虫框架, 支持 JavaScript渲染.

Heritrix3?- 可扩展,大规模的网络爬虫项目.

SeimiCrawler?- 一个 敏捷的分布式爬虫框架.

StormCrawler?- 基于开放源 代码 、构建低延迟的网络资源采集框架,基于Apache Storm.

Spark-Crawler?- 基于Apache Nutch 的网络爬虫,可以运行于Spark.

C#

ccrawler?- 一个 简单的Web 内容 分类 方案,它可以根据其 内容 分开网页,基于C#3.5.

SimpleCrawler?- 简单的多线程网络爬虫,基于REG表达式.

DotnetSpider?- 基于C#开发的 一个 轻量级,交叉平台的网络爬虫.

Abot?- 具有很好效率和可扩展性的C#网络爬虫.

Hawk?- ?用 C#/WPF开发的网络爬虫,具有简单的ETL 功能 .

SkyScraper?- 一个 支持 异步网络和有很好扩展性的网络爬虫.

JavaScript

scraperjs?- 基于js的 一个 功能 齐全的网络爬虫.

scrape-it?- 基于Node.js的网络爬虫.

simplecrawler?- 基于事件驱动开发的网络爬虫.

node-crawler?- 提供简单API,适于二次开发的网络爬虫.

js-crawler?- 基于Node.js, 支持 HTTP(S)的网络爬虫.

x-ray?- 支持 分页 的网络爬虫.

node-osmosis?- 基于Node.js适于解析html结构的网络爬虫.

PHP

Goutte?- 基于 PHP 的网页截屏和爬取程序.

l ara vel-goutte?- 基于L ara vel 5 的网络爬虫.

dom-crawler?- 易于抽取DOM 文件 的网络爬虫.

pspider?- 基于 PHP 的并发网络爬虫.

PHP -spider?- 一个 基于 PHP 的高可扩展的网络爬虫.

C++

open-source-search-engine?- 基于C/C++开发的网络爬虫和 搜索 引擎.

C

httrack ?- 全部网站整体复制工具。 ## Ruby

upton?- 一个 易于上手的爬虫框架集合, 支持 css选择器.

wombat?- 基于Ruby天然的 支持 DSL的网络爬虫,易于 提取 网页正文数据.

RubyRetriever?- 基于Ruby的 网站数据 采集和全网数据收割机.

Spidr?- 全站数据采集, 支持 无限的网站 链接地址 采集.

Cobweb?- 非常灵活,易于扩展的网络爬虫,可以单点部署使用.

mechanize?- 自动 采集 网站数据 的框架.

R

rvest?- 基于R开发的简单网络爬虫.

Erlang

ebot?- 一个 分布式,高可扩展的网络爬虫.

Perl

web-scraper?- 方便使用html、css、XPath选择器的网络爬虫。

Go

pholcus?- 一个 分布式, 支持 高并发的网络爬虫.

gocrawl?- 一个 高并发的,轻量级,遵守道德的网络爬虫.

fetchbot?- 一个 遵守robots.txt规则和延迟规则的轻量级网络爬虫.

go_spider?- 一个 非常好的高并发网络爬虫.

dht?- 支持 DHT协议的网络爬虫.

ants-go?- 基于Golang的高并行网络爬虫.

scrape?- 一个 简单的提供很好开发接口的网络爬虫.

Scala

crawler?- 基于Scala DSL的网络爬虫.

scrala?- 由Scala开发基于scrapy内核的网络爬虫.

ferrit?- 基于Scala开发使用了Akka,Spray,Cassandra的网络爬虫.

GitHub: https://github.com/BruceDone/awesome-crawler

网站描述: 爬虫技术资源汇总

awesome-crawler官方网站

官方网站:

如果觉得 网站内容还不错,欢迎将 网站 推荐给程序员好友。

查看更多关于awesome-crawler的详细内容...

  阅读:34次

上一篇

下一篇

第1节:javascript-questions    第2节:RunJS    第3节:angular-starter    第4节:Word联盟    第5节:NodeSchool    第6节:from_coder_to_expert    第7节:Mars    第8节:TypeScript手册    第9节:typescript-book-chinese    第10节:DeepLearning-500-questions    第11节:DIVCSS5    第12节:ctolib码库    第13节:wtfjs    第14节:project-guidelines    第15节:awesome-blockchain-cn    第16节:javascript-algorithms    第17节:7-days-nodejs    第18节:realworld    第19节:teamtree    第20节:极客标签    第21节:Functional-Light-JS    第22节:hCoder    第23节:gulp-book    第24节:howtographql    第25节:data-structures    第26节:Web-Series    第27节:Web入门进价    第28节:dive-into-webpack    第29节:LintCode    第30节:D9源码    第31节:JSFiddle    第32节:libpku    第33节:达内Web培训    第34节:CS-Notes    第35节:awesome-webpack    第36节:tiny-compiler    第37节:牛客网    第38节:Angular-GettingStarted    第39节:智能社    第40节:cs-playground-react    第41节:html中文网    第42节:awesome-crawler    第43节:Flutter实战    第44节:创客学院    第45节:front-end-interview-handbook    第46节:egghead    第47节:扣丁学堂    第48节:33-js-concepts    第49节:传智播客    第50节:IT学习网    第51节:scrimba    第52节:Google Developers    第53节:印记中文    第54节:awesome-vue    第55节:alligator.io    第56节:awesome-flutter    第57节:Udemy    第58节:AngularJS-Learning    第59节:awesome-coding-js    第60节:TypeScript-Node-Starter    第61节:fp-jargon-zh    第62节:WebFundamentals    第63节:You-Dont-Need-jQuery    第64节:awesome-wechat-weapp    第65节:你可能不需要jQuery    第66节:淘宝大学    第67节:十大经典排序算法    第68节:21世纪教育    第69节:web-study    第70节:Laravel学院    第71节:Algo-Practice    第72节:JSRUN在线运行    第73节:Platzi    第74节:Jsrobot    第75节:FreeCodeCamp    第76节:学堂在线    第77节:learn-regex    第78节:Mac-dev-setup    第79节:GSYGithubAppFlutter    第80节:codewars    第81节:tech-interview-handbook    第82节:developer-roadmap    第83节:codecademy    第84节:TutsPlus    第85节:Flutter-learning    第86节:前端技术清单    第87节:TNFE-Weekly    第88节:实验楼    第89节:菜鸟教程    第90节:30-seconds-of-code    第91节:Learn Git Branching    第92节:腾讯大学    第93节:网易云课堂