好得很程序员自学网

<tfoot draggable='sEl'></tfoot>

Scrapy框架介绍

scrapy (三)各部分意义及框架示意图详解

一、 ? ? ?框架示意图

Scrapy ?由? ? Python? ? 编写 ? ? , ? ? 是 ? ? 一个快速、高层次的屏幕抓取和 ?web ?抓取框架,用于抓取 ? web ? 站点并从页面中提取结构化的数据。 ? Scrapy ? 用途广泛,可以用于数据挖掘、监测和自动化测试。

?

? ?

?

1、Scrapy Engine(引擎): 引擎负责控制数据流在系统的所有组件中流动,并在相应动作发生时触发事件。

2、Scheduler(调度器): 调度器从引擎接受request并将他们入队,以便之后引擎请求他们时提供给引擎。

3、Downloader(下载器): 下载器负责获取页面数据并提供给引擎,而后提供给spider。

4、Spider(爬虫): Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。 每个spider负责处理一个特定(或一些)网站。

5、Item Pipeline(管道): Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、 验证及持久化(例如存储到数据库中)。

6、Downloader Middlewares(下载中间件): 下载器中间件是在引擎及下载器之间的特定钩子(specific hook),处理Downloader传递给引擎的response。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能。

7、Spider Middlewares(Spider中间件): Spider中间件是在引擎及Spider之间的特定钩子(specific hook),处理spider的输入(response)和输出(items及requests)。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能。

(2).最新版

1、引擎:怎么样,爬虫老弟,搞起来啊!

2、Spider:好啊,老哥,来来来,开始吧。今天就爬xxx网站怎么样

3、引擎:没问题,入口URL发过来!

4、Spider:呐,入口URL是https://ww.xxx测试数据。

5、引擎:调度器老弟,我这有request请求你帮我排序入队一下吧。

6、调度器:引擎老哥,这是我处理好的request。

7、引擎:下载器老弟,你按照下载中间件的设置帮我下载一下这个request请求。

8、下载器:可以了,这是下载好的东西。(如果失败:sorry,这个request下载失败了。然后引擎告诉调度器,这个request下载失败了,你记录一下,我们待会儿再下载)

9、引擎:爬虫老弟,这是下载好的东西,下载器已经按照下载中间件处理过了,你自己处理一下吧。

10、Spider:引擎老哥,我的数据处理完毕了,这里有两个结果,这个是我需要跟进的URL,还有这个是我获取到的Item数据。

11、引擎:管道老弟,我这儿有个item你帮我处理一下!

12、引擎:调度器老弟,这是需要跟进URL你帮我处理下。(然后从第四步开始循环,直到获取完需要全部信息)

?

?

二、爬虫人员的主要工作

?

1 ?、创建一个 ? Scrapy ? 项目

2 ?、定义提取的 ? Item

3 ?、编写爬取网站的? ? spider? ? 并提取? ? Item

4 ?、编写? ? Item Pipeline? ? 来存储提取到的 ? Item( ? 即数据 ? )

?

三、 ?scrapy ?基本流程

?

?

?

?

?

?

四、 ?scrapy? ?框架各部分详解

1、 ? ? ? ? ? ? Scrapy Items ? ? ? ? ? ? ?: ? ? ? 定义您想抓取的数据

import scrapy

class TorrentItem(scrapy.Item):

??? name = scrapy.Field()

2、spiders: ? ? ?编写提取数据的 ?Spider

1 ?) ? ? : ? ? 定义初始 ?URL ? ?根网址 ? ? 、 ?? ?针对后续链接的规则以及从页面中提取数据的规则 ? ? (即写正则或 ?xpath ?等等) ? ? 。

2 ?) ? ? 执行 ?spider ?,获取数据

注 ? ? : ? ? 运行 ?spider ?来获取网站的数据,并以 ? JSON ? 格式存入到 ? ?scraped_data.json ? ? ?文件中 ? :

terminal ?: ? scrapy crawl mininova -o scraped_data.json

3、编写 item? ? ? pipeline ? ? ? ?将 ?item存储到数据库中

注:

1 ? ?) ? ? 、 ? ?Item ?在 ? Spider ? 中被收集之后,它将会被传递到 ? Item Pipeline ? ,一些组件会按照一定的顺序执行对 ? Item ? 的处理 ? ? ;

2 ?) ? ? 每个 ?item pipeline ?组件 ? ( ? 有时称之为 ? “Item Pipeline”) ? 是实现了简单方法的 ? Python ? 类。他们接收到 ? Item ? 并通过它执行一些行为,同时也决定此 ? Item ? 是否继续通过 ? pipeline ? ,或是被丢弃而不再进行处理。

3 ?) ? ?item pipeline ?的一些典型应用:

a ? ?)清理 ?HTML ?数据

b ? ?)验证爬取的数据 ?( ?检查 ? item ? 包含某些字段 ? )

c ? ?)查重 ?( ?并丢弃 ? )

4 ?)将爬取结果保存到数据库中

4、编写自己的item pipeline

注:每个 ?item pipiline ?组件是一个独立的 ? Python ? 类,同时必须实现以下方法 ? :

1 ?) ? process_item(item, spider)

每个 ?item pipeline ?组件都需要调用该方法,这个方法必须返回一个? ? Item ( ? 或任何继承类 ? ) ? 对象, 或是抛出? ? DropItem ? 异常,被丢弃的 ? item ? 将不会被之后的 ? pipeline ? 组件所处理。

参数 ?:

item (Item? ?对象 ? )? ? – 被爬取的 ? item

spider (Spider? ?对象 ? )? ? – 爬取该 ? item ? 的 ? spider

2 ?) ? open_spider(spider)

当 ?spider ?被开启时,这个方法被调用。

参数 ?: ? spider (Spider? ?对象 ? )? ? – 被开启的 ? spider

3 ?) ? close_spider(spider)

当 ?spider ?被关闭时,这个方法被调用

参数 ?: ? spider (Spider? ?对象 ? )? ? – 被关闭的 ? spider

5、查看提取到的数据

执行结束后,查看 ??scraped_data.json ,? ?将看到提取到的 ? item:

注 ? ?? ? ?: ?1 ? ?) ? ? 由于 ??selectors? ?返回 ? list,? ? 所以值都是以 ? list ? 存储的 ? ( ? 除了? ? url? ? 是直接赋值之外 ? ) ? 。

2 ? ?) ? ?? ? ? Item Loaders ? ? ? ? ?: ? ? 可以 ? ? 保存单个数据或者对数据执行额外的处理

?

查看更多关于Scrapy框架介绍的详细内容...

  阅读:31次