如何应对网站反爬虫?
- 更新时间:2021-06-21 10:13:45
- 编辑:康蕴涵
参考资料
- 精通Python网络爬虫:核心技术、框架与项目实战 PDF 电子书 / 13267 MB M / 韦玮 推荐度:
- 精通Scrapy网络爬虫 PDF 电子书 / 17.69 MB / 刘硕 推荐度:
- Python3爬虫、数据清洗与可视化实战 PDF 电子书 / 232.8 MB / 零一 推荐度:
- 用Python写网络爬虫 PDF 电子书 / 9.9 MB / 理查德·劳森 推荐度:
- Python轻松学:爬虫、游戏与架站 PDF 电子书 / 23.7 MB / 王春艳 推荐度:
正文内容
无意中在网上看到《如何应对网站反爬虫?》,技术点分析的很透彻,把网友测试过的内容发布到这里,为了方便大家的阅读。
1、IP代理
对于IP代理,各个语言的Native Request API都提供的IP代理响应的API, 需要解决的主要就是IP源的问题了。
网络上有廉价的代理IP(1元4000个左右), 我做过简单的测试, 100个IP中, 平均可用的在40-60左右, 访问延迟均在200以上。
网络有高质量的代理IP出售, 前提是你有渠道。
因为使用IP代理后, 延迟加大, 失败率提高, 所以可以将爬虫框架中将请求设计为异步, 将请求任务加入请求队列(RabbitMQ,Kafka,Redis), 调用成功后再进行回调处理, 失败则重新加入队列. 每次请求都从IP池中取IP, 如果请求失败则从IP池中删除该失效的IP。
2、Cookies
有一些网站是基于cookies做反爬虫, 这个基本上就是 维护一套Cookies池。
注意研究下目标网站的cookies过期事件, 可以模拟浏览器, 定时生成cookies。
3、限速访问
像开多线程,循环无休眠的的暴力爬取数据, 那真是分分钟被封IP的事, 限速访问实现起来也挺简单(用任务队列实现), 效率问题也不用担心, 一般结合IP代理已经可以很快地实现爬去目标内容。
以上就是应对网站反爬虫的方法,推荐大家使用代理Ip的方法。如果大家想测试使用下,可以尝试品易http代理ip,免费测试包含各种类ip资源,无限调用IP量!python爬虫
相关教程
-
python中绕过反爬虫的方法总结
在本篇文章里小编给大家整理的是一篇关于python中绕过反爬虫的方法总结内容,需要的朋友们可以参考下。
发布时间:2021-05-02
-
Python爬虫分析微博热搜关键词的实现代码
这篇文章主要介绍了Python爬虫分析微博热搜关键词的实现代码,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
发布时间:2021-05-02