Spark高级数据分析是使用Spark进行大规模数据分析的实战宝典,由大数据公司Cloudera的数据科学家撰写。四位作者首先结合数据科学和大数据分析的广阔背景讲解了Spark,然后介绍了用Spark和Scala进行数据处理的基础知识,接着讨论了如何将Spark用于机器学习,同时介绍了常见应用中几个常用的算法。此外还收集了一些更加新颖的应用,比如通过文本隐含语义关系来查询Wikipedia或分析基因数据。
目录
- 第1 章 大数据分析 1
- 第2 章 用Scala 和Spark 进行数据分析 7
- 第3 章 音乐推荐和Audioscrobbler 数据集 33
- 第4 章 用决策树算法预测森林植被 51
- 第5 章 基于K 均值聚类的网络流量异常检测 71
- 第6 章 基于潜在语义分析算法分析维基百科 89
- 第7 章 用GraphX 分析伴生网络 109
- 第8 章 纽约出租车轨迹的空间和时间数据分析 135
- 第9 章 基于蒙特卡罗模拟的金融风险评估 155
- 第10 章 基因数据分析和BDG 项目 175
- 第11 章 基于PySpark 和Thunder 的神经图像数据分析 195