awesome-crawler

awesome-crawler 介绍

互联网爬虫，蜘蛛，数据采集器，网页解析器的汇总，因新技术不断发展，新框架层出不穷?

Python

Scrapy?- 一种高效的屏幕, 网页数据采集框架。

django-dynamic-scraper?- 基于Scrapy内核由django Web框架开发的爬虫。

Scrapy-Re dis ?- 基于Scrapy内核采用Re dis 组件的爬虫。

scrapy-cluster?- 基于Scrapy内核采用Re dis 和 Kafka 开发的分布式爬虫框架。

distribute _crawler?- 基于Scrapy内核采用re dis ,mongodb开发的分布式爬虫框架。

pyspider?- 一个强大纯python的数据采集系统.

cola?- 一个分布式的爬虫框架.

Demiurge?- 基于PyQuery的微型爬虫框架.

Scrapely?- 一个纯python的html 页面捕捉库.

Feed parser?- 一个通用的 Feed 解析器.

you-get?- 静默网站爬去下载器.

Grab?- 网站采集框架.

MechanicalSoup?- 一个自动化的互动网站Python库.

portia?- 基于Scrapy的可视化数据采集框架.

crawley?- 基于非阻塞通信(NIO)的 Python爬虫框架.

Robo bro wser?- 一个简单的，不基于Web浏览器的基于Python的Web 浏览器.

MSpider?- 一个基于gevent(协程网络库)的 Python爬虫 .

bro wnant?- 一个轻量级的网络数据抽取框架.

Java

Apache Nutch?- 用于生产环境的高度可扩展的高度可扩展的网络爬虫.

anthelion?- 一个基于Apache Nutch抓取语义注释在html 页面插件 .

Crawler4j?- 简单和轻量级的网络爬虫.

JSoup?- 采集，分析，处理和清洗html 页面 .

webs phinx ?- html网站特定的处理、信息提取 .

Open Search Server?- 全套搜索功能，建立你自己的索引策略。分析、提取全文数据，这个框架可以索引的一切.

Gecco?- 一个易于使用的轻量级网络爬虫.

WebCollector?-简单的抓取网页的界面，可以在不到5分钟内部署一个多线程的网络爬虫.

Webmagic?- 一个可扩展的爬虫框架.

Spiderman?- 一个可扩展的，多线程的网络爬虫.

Spiderman2?- 分布式网络爬虫框架，支持 JavaScript渲染.

Heritrix3?- 可扩展，大规模的网络爬虫项目.

SeimiCrawler?- 一个敏捷的分布式爬虫框架.

StormCrawler?- 基于开放源代码、构建低延迟的网络资源采集框架，基于Apache Storm.

Spark-Crawler?- 基于Apache Nutch 的网络爬虫，可以运行于Spark.

C#

ccrawler?- 一个简单的Web 内容分类方案，它可以根据其内容分开网页,基于C#3.5.

SimpleCrawler?- 简单的多线程网络爬虫，基于REG表达式.

DotnetSpider?- 基于C#开发的一个轻量级，交叉平台的网络爬虫.

Abot?- 具有很好效率和可扩展性的C#网络爬虫.

Hawk?- ?用 C#/WPF开发的网络爬虫，具有简单的ETL 功能 .

SkyScraper?- 一个支持异步网络和有很好扩展性的网络爬虫.

JavaScript

scraperjs?- 基于js的一个功能齐全的网络爬虫.

scrape-it?- 基于Node.js的网络爬虫.

simplecrawler?- 基于事件驱动开发的网络爬虫.

node-crawler?- 提供简单API，适于二次开发的网络爬虫.

js-crawler?- 基于Node.js, 支持 HTTP(S)的网络爬虫.

x-ray?- 支持分页的网络爬虫.

node-osmosis?- 基于Node.js适于解析html结构的网络爬虫.

PHP

Goutte?- 基于 PHP 的网页截屏和爬取程序.

l ara vel-goutte?- 基于L ara vel 5 的网络爬虫.

dom-crawler?- 易于抽取DOM 文件的网络爬虫.

pspider?- 基于 PHP 的并发网络爬虫.

PHP -spider?- 一个基于 PHP 的高可扩展的网络爬虫.

C++

open-source-search-engine?- 基于C/C++开发的网络爬虫和搜索引擎.

C

httrack ?- 全部网站整体复制工具。 ## Ruby

upton?- 一个易于上手的爬虫框架集合，支持 css选择器.

wombat?- 基于Ruby天然的支持 DSL的网络爬虫，易于提取网页正文数据.

RubyRetriever?- 基于Ruby的网站数据采集和全网数据收割机.

Spidr?- 全站数据采集，支持无限的网站链接地址采集.

Cobweb?- 非常灵活，易于扩展的网络爬虫，可以单点部署使用.

mechanize?- 自动采集网站数据的框架.

R

rvest?- 基于R开发的简单网络爬虫.

Erlang

ebot?- 一个分布式，高可扩展的网络爬虫.

Perl

web-scraper?- 方便使用html、css、XPath选择器的网络爬虫。

Go

pholcus?- 一个分布式，支持高并发的网络爬虫.

gocrawl?- 一个高并发的，轻量级，遵守道德的网络爬虫.

fetchbot?- 一个遵守robots.txt规则和延迟规则的轻量级网络爬虫.

go_spider?- 一个非常好的高并发网络爬虫.

dht?- 支持 DHT协议的网络爬虫.

ants-go?- 基于Golang的高并行网络爬虫.

scrape?- 一个简单的提供很好开发接口的网络爬虫.

Scala

crawler?- 基于Scala DSL的网络爬虫.

scrala?- 由Scala开发基于scrapy内核的网络爬虫.

ferrit?- 基于Scala开发使用了Akka,Spray，Cassandra的网络爬虫.

GitHub: https://github测试数据/BruceDone/awesome-crawler

网站描述: 爬虫技术资源汇总

awesome-crawler官方网站

官方网站：

如果觉得网站内容还不错，欢迎将网站推荐给程序员好友。

查看更多关于awesome-crawler的详细内容...

声明：本文来自网络，不代表【好得很程序员自学网】立场，转载请注明出处：http://haodehen.cn/did175486

更新时间：2023-04-18 阅读：88次