1. 什么是Selenium
Selenium 是一套完整的 Web 应用程序测试系统,它包含了测试的录制、编写及运行和测试的并行处理。支持的浏览器包括 IE (7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera 等。完全有 JavaScript 编写,因此可以运行于任何支持 JavaScript 的浏览器上。
2 2. S S elenium 爬虫优劣势分析
2.1 优势
不需要做复杂的抓包、构造请求、解析数据等,开发难度相对要低一些。其访问参数跟使用浏览器的正常用户一模一样,访问行为也相对更像正常用户,不容易被反爬虫策略命中。
在需要模拟用户登录、浏览器滑动或点击时,使用 Selenium 执行 js 语句非常容易实现,比较适合动态网页的信息爬取。
2.2 劣势
相比于抓包→构造请求→解析返回值的爬虫,由于 Selenium 需要生成一个浏览器环境,所有操作(与元素交互、获取元素内容等)均需要等待页面加载完毕后才可以继续进行,所以速度相比构造请求的慢很多。
如果是爬取静态网页,不建议使用 Selenium,原因是速度太慢,效率太低。
建议使用其他爬虫工具,比如 Scrapy。