scrapy中的强大媒体管道（二）

scrapy 入门（一）

上文用了scrapy爬取了百度的美女图片，今天写写scrapy中的Image Pipeline

scrapy提供了专门下载的PIpeline，包含文件下载和图片下载。

在pipelines.py 导入ImagesPipeline from scrapy.pipelines.images import ImagesPipeline

ctrl 点下看下源码，可以看出媒体管道就是? ImagesPipeline ?和 FilesPipeline

那么怎么用呢，今天继续爬美女图片，换个媒体管道来爬

首先先配置settings中的ITEM_PIPELINES 'scrapy.pipelines.images.ImagesPipeline': 1 ?后面数字1让它马上调用

存储图片的路径 IMAGES_STORE = '/home/pyvip/文档/img/IMGS''

重点来了内置的ImagePipeline会默认读取Item的image_urls字段

item.py 中只能写image_urls字段

再处理下pipelines.py 让 ImagePipeline 继承ImagesPipeline?

meinv.py

逻辑

用正则匹配image_urls 直接给到Imageitem，而ImagePipeline继承于scrapy默认的媒体管道ImagesPipeline，也就是有了image_urls 的字段，而默认的媒体管道会直接下载image_urls 中的图片在setting中建立了存储路径，会把图片放在该文件夹下

好像没问题，那直接cd 到目录根目录下? scrapy crawl meinv

看到 image_urls ?有东西，好像没问题

果然在IMGS中有30张图片

但是我感到奇怪百度图片不是有refer吗，没有不是forbidden吗

那在哪里加上refer，在middleware.py 中的处理请求中加入

没完，我继续在settings.py中添加 IMAGES_THUMBS = {'small': (50, 50), 'big':(270, 270)}

我要把大图和小图分出来

继续 scrapy crawl meinv

原来图片都是700以上的，反而变成小图

总结

媒体管道的工作流是这样的:

在爬虫中，您可以返回一个item，并将所需的url放入file_urls字段。

item从爬虫返回并进入item管道。

当item到达文件管道时，file_urls字段中的url将使用标准的Scrapy调度器和下载程序(这意味着将重用调度器和下载程序中间件)计划下载，但是具有更高的优先级，在其他页面被爬取之前处理它们。在文件下载完成(或由于某种原因失败)之前，该项在特定管道阶段保持“锁定”状态。

下载文件后，将使用另一个字段（files）填充results。这个字段将包含一个包含有关下载文件信息的dicts列表，例如下载的路径、原始的剪贴url(从file_urls字段中获得)和文件校验和。文件字段列表中的文件将保持原来file_urls字段的顺序。如果某些文件下载失败，将记录一个错误，文件将不会出现在files字段中。

媒体管道的设置

在settings中添加就可以了

ITEM_PIPELINES = {'scrapy.pipelines.images.ImagesPipeline': 1} ?启用

FILES_STORE = '/path/to/valid/dir' ? ? ? ?文件管道存放位置

IMAGES_STORE = '/path/to/valid/dir' ? ? ? ?图片管道存放位置

FILES_URLS_FIELD = 'field_name_for_your_files_urls' ? ?自定义文件url字段

FILES_RESULT_FIELD = 'field_name_for_your_processed_files' ? 自定义结果字段

IMAGES_URLS_FIELD = 'field_name_for_your_images_urls' ?自定义图片url字段

IMAGES_RESULT_FIELD = 'field_name_for_your_processed_images' ?结果字段

FILES_EXPIRES = 90 ? ?文件过期时间 ? 默认90天

IMAGES_EXPIRES = 90 ? ?图片过期时间 ? 默认90天

IMAGES_THUMBS = {'small': (50, 50), 'big':(270, 270)} ?缩略图尺寸

IMAGES_MIN_HEIGHT = 110 ? 过滤最小高度

IMAGES_MIN_WIDTH = 110 ? 过滤最小宽度

MEDIA_ALLOW_REDIRECTS = True ? ?是否重定向

代码

meinv.py

 mport?scrapy import?re from?..items?import?ImageItem class?MeinvSpider(scrapy.Spider): ????name?=?'meinv' ????#?allowed_domains?=?['HdhCmsTestbaidu测试数据'] ????start_urls?=?['https://image.baidu测试数据/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1552550885640_R&pv=&ic=&nc=1&z=&hd=&latest=&copyright=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E7%BE%8E%E5%A5%B3']  ????def?parse(self,?response): ????????item?=?ImageItem() ????????html?=?response.text ????????item['image_urls']?=?re.findall(r'"thumbURL":"(.*?)"',html) ????????yield?item

settings.py

 ROBOTSTXT_OBEY?=?False ITEM_PIPELINES?=?{ ???#?'image.pipelines.ImagePipeline':?300, ???'scrapy.pipelines.images.ImagesPipeline':?1 } IMAGES_STORE?=?'/home/pyvip/code/爬虫/爬虫框架/image/IMGS' IMAGES_THUMBS?=?{'small':?(50,?50),?'big':(270,?270)}

pipelines.py

 from?scrapy.pipelines.images?import?ImagesPipeline  class?ImagePipeline(ImagesPipeline): ????pass

item.py

 import?scrapy class?ImageItem(scrapy.Item): ????image_urls?=?scrapy.Field()

查看更多关于scrapy中的强大媒体管道（二）的详细内容...

声明：本文来自网络，不代表【好得很程序员自学网】立场，转载请注明出处：http://haodehen.cn/did127884

更新时间：2022-11-28 阅读：64次