《PySpark实战指南》是一本非常实用的参考指南,对于想要深入了解并利用Python和Spark的强大功能的读者来说是必不可少的一本书,本书详细介绍了如何使用Python来调用Spark的新特性,并重点介绍了处理结构化和非结构化数据的技巧,本书还涵盖了PySpark中基本可用的数据类型,让读者更加轻松地应用这些知识进行数据分析和处理,对于想要在PySpark领域取得突破的读者来说,这本书将是一个宝贵的资源。
这本书还得配合着python的书来一起看才行。讲道理还是有点薄的。工具书的价格跟厚度成正比。
看过spark的书,但是不懂scala语言实践起来比较麻烦,有了pyspark对我们学习Python的人真是福音
做数据挖掘,Python已经成为无法回避的语言,要不然就是Matlab,但Python开源发展更快。
内容介绍
本书从Spark的基本特点出发,借助大量例子详细介绍了如何使用Python调用Spark新特性、处理结构化及非结构化数据、使用PySpark中基本可用数据类型、生成机器学习模型、进行图像操作以及阅读串流数据等新兴技术内容。
目录
- 第1章 了解Spark
- 第2章 弹性分布式数据集
- 第3章 DataFrame
- 第4章 准备数据建模
- 第5章 MLlib介绍
- 第6章 ML包介绍
- 第7章 GraphFrames
- 第8章 TensorFrames
- 第9章 使用Blaze实现混合持久化
- 第10章 结构化流
- 第11章 打包Spark应用程序
今天看了前三章,感觉内容过于简单,不翔实,没有期望的那么好,但是对于初学者,还是可以参考一下的。
这本书还得配合着python的书来一起看才行。讲道理还是有点薄的。工具书的价格跟厚度成正比。