<tfoot draggable='sEl'></tfoot>

python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制

CrawlSpider实现的全站数据的爬取

新建一个工程 cd 工程创建爬虫文件：scrapy genspider -t crawl spiderName HdhCmsTestxxx测试数据连接提取器LinkExtractor 可以根据指定的规则对指定的连接进行提取提取的规则就是构造方法中的allow（‘正则表达式’）参数决定规则解析器Rule 可以将将连接提取器提取到的连接进行请求发送，可以根据指定的规则（callback）对请求到的数据进行解析 follow=True:将连接提取器继续作用到连接提取器提取到的连接所对应的页面源码中

分布式

实现方式：scrapy+scrapy_redis组件实现的分布式。scrapy+redis

原生的scrapy是不可以实现分布式的！！！

什么是分布式

需要搭建一个由n台电脑组成的机群，然后在每一台电脑中执行同一组程序，让其对同一个网络资源进行联合且分布的数据爬取。

为什么scrapy不可以实现分布式

调度器不可以被共享管道不可以被共享

scrapy-reids组件的作用是什么

提供可以被共享的管道和调度器

分布式的实现流程

环境的安装：pip install scrapy-redis

创建工程

cd 工程

创建爬虫文件：

基于Spider 基于CrawlSpider

修改爬虫文件：

导报： from scrapy_redis.spiders import RedisCrawlSpider#基于crawlSpider爬虫文件 from scrapy_redis.spiders import RedisSpider #基于Spider爬虫文件将当前爬虫类的父类修改为RedisCrawlSpider 删除allowed_domains和start_urls 添加一个redis_key = ‘xxx’属性，表示的是调度器队列的名称、根据常规形式编写爬虫文件后续的代码

修改settings配置文件

指定管道 ITEM_PIPELINES = { ‘scrapy_redis.pipelines.RedisPipeline‘: 400 }

指定调度器

增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

使用scrapy-redis组件自己的调度器

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据

SCHEDULER_PERSIST = True

指定redis数据库 REDIS_HOST = ‘192.168.13.254‘ REDIS_PORT = 6379

修改redis的配置文件redis.windows.conf

关闭默认绑定 56行：#bind 127.0.0.1 关闭保护模式 75行：protected-mode no

启动redis的服务端（携带配置文件）和客户端

启动分布式的程序：

scrapy runspider xxx.py

向调度器的队列中扔入一个起始的url

队列是存在于redis中 redis的客户端中：lpush sun HdhCmsTestxxx测试数据

在redis中就可以查看爬取到的数据

增量式

概念：监测核心技术：去重适合使用增量式的网站：基于深度爬取对爬取过的页面的url进行一个记录（记录表）基于非深度爬取记录表：爬取过的数据对应的数据指纹数据指纹：就是原始数据的一组唯一标识所谓的记录表是以怎样的形式存在于哪？ redis的set充当记录表

反爬机制

robots UA伪装图片懒加载验证码 cookie 动态加载的数据动态变化的请求参数 js加密 js混淆代理

查看更多关于python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制的详细内容...

声明：本文来自网络，不代表【好得很程序员自学网】立场，转载请注明出处：http://haodehen.cn/did170513

更新时间：2023-04-17 阅读：40次

上一篇： Python借助argv和input()制作命令行工具

下一篇：django补充CBV和FBV模式