Selenium模拟浏览器万能爬虫指南(python篇)

更新：2020-04-10 23:48:32
大小：385 KB
热度：895
审核：赵敏丽
类别：Selenium
版本：超清版

资源介绍
相关推荐

1. 什么是Selenium

Selenium 是一套完整的 Web 应用程序测试系统，它包含了测试的录制、编写及运行和测试的并行处理。支持的浏览器包括 IE （7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chrome，Opera 等。完全有 JavaScript 编写，因此可以运行于任何支持 JavaScript 的浏览器上。

2 2. S S elenium 爬虫优劣势分析

2.1 优势

不需要做复杂的抓包、构造请求、解析数据等，开发难度相对要低一些。其访问参数跟使用浏览器的正常用户一模一样，访问行为也相对更像正常用户，不容易被反爬虫策略命中。

在需要模拟用户登录、浏览器滑动或点击时，使用 Selenium 执行 js 语句非常容易实现，比较适合动态网页的信息爬取。

2.2 劣势

相比于抓包→构造请求→解析返回值的爬虫，由于 Selenium 需要生成一个浏览器环境，所有操作（与元素交互、获取元素内容等）均需要等待页面加载完毕后才可以继续进行，所以速度相比构造请求的慢很多。

如果是爬取静态网页，不建议使用 Selenium，原因是速度太慢，效率太低。

建议使用其他爬虫工具，比如 Scrapy。