《Python数据抓取技术与实战》深入浅出地展现了使用Python进行数据抓取的各种技术和方法,书籍从Python基础知识开始讲解,逐步深入到字符串解析,让读者能够快速上手处理文本数据,随后,书中详细介绍了单机和分布式数据抓取的策略和工具,不仅覆盖了技术选择的广度,还深入到了具体实现的深度,特别是对于全能的Selenium和使用Tor进行匿名抓取的章节,为读者提供了强大的工具,以应对网页数据抓取中遇到的各种挑战,书中还针对数据抓取过程中的常见问题提供了专章解答,从技术角度帮助读者有效解决问题,此外,引入监控框架和大数据处理的内容,使得此书不仅仅停留在数据抓取的技术层面,更拓展到了数据处理和应用的更广阔领域,整体而言,这本书是数据科学家、Python开发者及任何对数据抓取感兴趣的人士的宝贵资源,它的实战导向和丰富的案例使得理论与实践结合得天衣无缝。
从13年底开始使用python进行数据抓取,主要在业余时间进行,也是一种爱好.抓取过各类网站.其中遇到并解决了各类问题,比如对加密Flash文本内容的抓取与解密,使用Tor进行IP的获取,滑块儿类验证码,以及分布式抓取监控平台的搭建等等,随着经验的积累目前基本可以应对和解决各类抓取问题了.在这个过程中进行了一些总结, 对于一些问题总结成了论文:<<Web站点拓扑结构获取方法研究>>(2015)和<<一种通用分布式数据抓取系统的设计与实现>>(2016),其中第二篇包含了本书"监控系统"部分内容.本书(2016)也是这段时间一些工作的总结,主要介绍了一些抓取的基础知识和实施方式,但不是全部工作内容,考虑到抓取某些特定网站可能带来的问题,很多内容和实例在最后定稿时删掉了.写一本书结构既要从整体把握,还要注意细节,内容也要详略得当,对于我来说能力精力有限,可能会有不周.借助豆瓣这个平台希望能和各位读者交流,我会解答大家阅读时的问题.希望我们互相交流,共同进步.
本书对html/xml的介绍几乎没有,对密码、验证码、动态抓取等等数据抓取会出现的可能状况的介绍也十分不够。在python的各种包、库的安装与介绍上也很不足。光安装selenium,本人花了1个多小时解决出现的报错问题,而这个细节在本书仅仅用一句话轻描淡写地带过。本书介绍的spynner库在python3不可用,而本书竟然就是用的python3。抓取的例子少得可怜。大量的篇幅花在讲解一些新手用不到、老手已经懂的内容上。
内容简介
如何在大数据时代获得实时的数据信息,分析挖掘、提取出有价值的信息,并以直观清晰的图形表示出关键的数量关系和概念,是一个值得研究的问题。本书通过数据抓取篇(如何获得数据信息)、数据分析篇(分析挖掘,提取出有价值的信息)、数据可视化篇(以直观清晰的图形表示出关键的数量关系和概念)详细描述数据抓取、分析、展示的整个流程,每一篇自成一体,可以单独学习掌握。
目录
- 第1章 Python基础1
- 第2章 字符串解析46
- 第3章 单机数据抓取77
- 第4章 分布式数据抓取137
- 第5章 全能的Selenium 159
- 第6章 神秘的Tor 191
- 第7章 抓取常见问题210
- 第8章 监控框架221
- 第9章 拥抱大数据229