awesome-crawler 介绍
互联网爬虫,蜘蛛,数据采集器,网页解析器的汇总,因新技术不断发展,新框架层出不穷?
Python
Scrapy?- 一种高效的屏幕, 网页数据 采集框架。
django-dynamic-scraper?- 基于Scrapy内核由django Web框架开发的爬虫。
Scrapy-Re dis ?- 基于Scrapy内核采用Re dis 组件的爬虫。
scrapy-cluster?- 基于Scrapy内核采用Re dis 和 Kafka 开发的分布式爬虫框架。
distribute _crawler?- 基于Scrapy内核采用re dis ,mongodb开发的分布式爬虫框架。
pyspider?- 一个 强大纯python的数据采集系统.
cola?- 一个 分布式的爬虫框架.
Demiurge?- 基于PyQuery的微型爬虫框架.
Scrapely?- 一个 纯python的html 页面 捕捉库.
Feed parser?- 一个 通用的 Feed 解析器.
you-get?- 静 默 网站爬去下载器.
Grab?- 网站采集框架.
MechanicalSoup?- 一个 自动 化的互动网站Python库.
portia?- 基于Scrapy的可视化数据采集框架.
crawley?- 基于非阻塞通信(NIO)的 Python爬虫 框架.
Robo bro wser?- 一个 简单的,不基于Web浏览器的基于Python的Web 浏览器.
MSpider?- 一个 基于gevent(协程网络库)的 Python爬虫 .
bro wnant?- 一个 轻量级的网络数据抽取框架.
Java
Apache Nutch?- 用于生产环境的高度可扩展的高度可扩展的网络爬虫.
anthelion?- 一个 基于Apache Nutch抓取语义注释在html 页面 插件 .
Crawler4j?- 简单和轻量级的网络爬虫.
JSoup?- 采集,分析,处理和清洗html 页面 .
webs phinx ?- html网站特定的处理、信息 提取 .
Open Search Server?- 全套 搜索 功能 ,建立你自己的索引策略。分析、 提取 全文数据,这个框架可以索引的一切.
Gecco?- 一个 易于使用的轻量级网络爬虫.
WebCollector?-简单的抓取网页的界面,可以在不到5分钟内部署 一个 多线程的网络爬虫.
Webmagic?- 一个 可扩展的爬虫框架.
Spiderman?- 一个 可扩展的,多线程的网络爬虫.
Spiderman2?- 分布式网络爬虫框架, 支持 JavaScript渲染.
Heritrix3?- 可扩展,大规模的网络爬虫项目.
SeimiCrawler?- 一个 敏捷的分布式爬虫框架.
StormCrawler?- 基于开放源 代码 、构建低延迟的网络资源采集框架,基于Apache Storm.
Spark-Crawler?- 基于Apache Nutch 的网络爬虫,可以运行于Spark.
C#
ccrawler?- 一个 简单的Web 内容 分类 方案,它可以根据其 内容 分开网页,基于C#3.5.
SimpleCrawler?- 简单的多线程网络爬虫,基于REG表达式.
DotnetSpider?- 基于C#开发的 一个 轻量级,交叉平台的网络爬虫.
Abot?- 具有很好效率和可扩展性的C#网络爬虫.
Hawk?- ?用 C#/WPF开发的网络爬虫,具有简单的ETL 功能 .
SkyScraper?- 一个 支持 异步网络和有很好扩展性的网络爬虫.
JavaScript
scraperjs?- 基于js的 一个 功能 齐全的网络爬虫.
scrape-it?- 基于Node.js的网络爬虫.
simplecrawler?- 基于事件驱动开发的网络爬虫.
node-crawler?- 提供简单API,适于二次开发的网络爬虫.
js-crawler?- 基于Node.js, 支持 HTTP(S)的网络爬虫.
x-ray?- 支持 分页 的网络爬虫.
node-osmosis?- 基于Node.js适于解析html结构的网络爬虫.
PHP
Goutte?- 基于 PHP 的网页截屏和爬取程序.
l ara vel-goutte?- 基于L ara vel 5 的网络爬虫.
dom-crawler?- 易于抽取DOM 文件 的网络爬虫.
pspider?- 基于 PHP 的并发网络爬虫.
PHP -spider?- 一个 基于 PHP 的高可扩展的网络爬虫.
C++
open-source-search-engine?- 基于C/C++开发的网络爬虫和 搜索 引擎.
C
httrack ?- 全部网站整体复制工具。 ## Ruby
upton?- 一个 易于上手的爬虫框架集合, 支持 css选择器.
wombat?- 基于Ruby天然的 支持 DSL的网络爬虫,易于 提取 网页正文数据.
RubyRetriever?- 基于Ruby的 网站数据 采集和全网数据收割机.
Spidr?- 全站数据采集, 支持 无限的网站 链接地址 采集.
Cobweb?- 非常灵活,易于扩展的网络爬虫,可以单点部署使用.
mechanize?- 自动 采集 网站数据 的框架.
R
rvest?- 基于R开发的简单网络爬虫.
Erlang
ebot?- 一个 分布式,高可扩展的网络爬虫.
Perl
web-scraper?- 方便使用html、css、XPath选择器的网络爬虫。
Go
pholcus?- 一个 分布式, 支持 高并发的网络爬虫.
gocrawl?- 一个 高并发的,轻量级,遵守道德的网络爬虫.
fetchbot?- 一个 遵守robots.txt规则和延迟规则的轻量级网络爬虫.
go_spider?- 一个 非常好的高并发网络爬虫.
dht?- 支持 DHT协议的网络爬虫.
ants-go?- 基于Golang的高并行网络爬虫.
scrape?- 一个 简单的提供很好开发接口的网络爬虫.
Scala
crawler?- 基于Scala DSL的网络爬虫.
scrala?- 由Scala开发基于scrapy内核的网络爬虫.
ferrit?- 基于Scala开发使用了Akka,Spray,Cassandra的网络爬虫.
GitHub: https://github.com/BruceDone/awesome-crawler
网站描述: 爬虫技术资源汇总
awesome-crawler官方网站
官方网站:
如果觉得 网站内容还不错,欢迎将 网站 推荐给程序员好友。