《Hadoop Spark大数据巨量分析与机器学习整合开发实战》从通俗易懂的“大数据和机器学习”基本原理详细介绍和表明下手,叙述大数据和机器学习的基本要素,如:归类、剖析、训炼、模型、预测分析、机器学习(强烈推荐模块)、机器学习(二元归类)、机器学习(多元化归类)、机器学习(多元回归分析)和大数据可视化运用。为减少阅读者学习大数据技术性的门坎,书中出示了丰富多彩的上机实践实际操作和案例程序流程详细说明,展现了怎样在每台Windows系统软件上根据VirtualBox虚拟机安装几台Linuxvm虚拟机,怎样创建Hadoop群集,再创建Spark开发工具。书中详细介绍构建的上机实践服务平台并不限定于单台实体线电子计算机。针对有标准的企业和院校,参考书中详细介绍的构建全过程,一样能够 将实践平台搭建在几台实体线电子计算机上,便于更为贴近于大数据和机器学习真正的软件环境。
《HadoopSpark大数据巨量分析与机器学习整合开发实战》特别适合于学习大数据基本知识的新手阅读文章,更合适已经学习大数据基础理论和技术性的工作人员做为上机实践用的教材内容。
目录
- 第1章 大数据与机器学习 1
- 第2章 VirtualBox虚拟机软件的安装 11
- 第3章 Ubuntu Linux操作系统的安装 23
- 第4章 Hadoop Single Node Cluster的安装 46
- 第5章 Hadoop Multi Node Cluster的安装 69
- 第6章 Hadoop HDFS命令 104
- 第7章 Hadoop MapReduce 122
- 第8章 Spark的安装与介绍 133
- 第9章 Spark RDD 159
- 第10章 Spark的集成开发环境 195
- 第11章 创建推荐引擎 236
- 第12章 StumbleUpon数据集 282
- 第13章 决策树二元分类 292
- 第14章 逻辑回归二元分类 326
- 第15章 支持向量机SVM二元分类 337
- 第16章 朴素贝叶斯二元分类 346
- 第17章 决策树多元分类 355
- 第18章 决策树回归分析 373
- 第19章 使用ApacheZeppelin 数据可视化 394