python 常见的反爬虫策略

今天带来python 常见的反爬虫策略教程详解

1、判断请求头来进行反爬

这是很早期的网站进行的反爬方式

User-Agent 用户代理 referer 请求来自哪里 cookie 也可以用来做访问凭证解决办法：请求头里面添加对应的参数（复制浏览器里面的数据）

2、根据用户行为来进行反爬

请求频率过高，服务器设置规定时间之内的请求阈值解决办法：降低请求频率或者使用代理（IP代理）网页中设置一些陷阱（正常用户访问不到但是爬虫可以访问到）解决办法：分析网页，避开这些特殊陷阱请求间隔太短，返回相同的数据解决办法：增加请求间隔

3、js加密

反爬方式中较为难处理的一类。 js加密的原理：服务器响应给浏览器的js文件，可以动态的生成一些加密参数，浏览器会根据js的计算得到这些参数，在请求中带入进来，如果请求中没有这些参数，那么服务器就任务请求无效。

4、字体加密

字体反爬，是一种常见的反爬技术，网站采用了自定义的字体文件，在浏览器上正常显示，但是爬虫抓取下来的数据要么就是乱码，要么就是变成其他字符。采用自定义字体文件是CSS3的新特性，熟悉前端的同学可能知道，就是font-face属性。

5、登录验证码

使用Python爬取网页内容时往往会遇到使用验证码登陆才能访问其网站，不同网站的使用的验证码也不同，在最开始使用简单验证码，识别数字，但是随着反爬的不断发展，慢慢设计出了更多复杂的验证码，比如：内容验证码、滑动验证码、图片拼接验证码等等。网上有很多打码平台，通过注册账号，调用平台接口，进行验证码的验证。

以上就是关于python 常见的反爬虫策略全部内容,感谢大家支持自学php网。

查看更多关于python 常见的反爬虫策略的详细内容...

声明：本文来自网络，不代表【好得很程序员自学网】立场，转载请注明出处：http://haodehen.cn/did6526

更新时间：2022-09-13 阅读：71次