《Python+Spark2.0+Hadoop机器学习与大数据实战》是一本内容丰富的书籍。本书注重从浅显易懂的角度解释了大数据和机器学习的原理,同时还介绍了它们的基本概念。通过逐步操作和详细讲解范例程序,读者能够很好地理解和掌握机器学习和大数据技术。这本书的主题是降低机器学习和大数据技术的难度,它将通过简明易懂的原理介绍和实机操作帮助读者实现这一目标。无论是对初学者还是对有一定经验的读者来说,这本书都是个不错的选择。
Python+Spark2.0+Hadoop机器学习与大数据实战
读者评价
做分布式作业的时候参考过这本书,作者写得挺仔细的作为入门真的挺棒。就是作者留的配套代码是用百度网盘的地址,我当时下的时候已经失效了后来找作者要了一份。我已经上传到github了,希望帮到后来的人https://github.com/crabdriver/Python-Spark-2.0-Hadoop-
首先请作者不要介意 不过看了之后对Hadoop和Spark基本没啥了解 印象深的是冗长的环境搭建描述 总之不推荐阅读
虽然内容可能没有很深入,但作者非常用心的把每一步操作详细的列出来并给出说明,让我们跟着做的时候非常有信心,没有出现奇奇怪怪的报错,没有不知道为啥就是进行不下去的情况。这本书用实例告诉你spark,hdfs的基础使用和操作方法,让你快速入门,懂得操作。后面再进行针对性的入门和进阶,就会非常顺手
内容介绍
《Python+Spark 2.0+Hadoop机器学习与大数据实战》从浅显易懂的“大数据和机器学习”原理说明入手,讲述大数据和机器学习的基本概念,如分类、分析、训练、建模、预测、机器学习(推荐引擎)、机器学习(二元分类)、机器学习(多元分类)、机器学习(回归分析)和数据可视化应用等。
书中不仅加入了新近的大数据技术,还丰富了“机器学习”内容。 为降低读者学习大数据技术的门槛,书中提供了丰富的上机实践操作和范例程序详解,展示了如何在单机Windows系统上通过Virtual Box虚拟机安装多机Linux虚拟机,如何建立Hadoop集群,再建立Spark开发环境。书中介绍搭建的上机实践平台并不限制于单台实体计算机。对于有条件的公司和学校,参照书中介绍的搭建过程,同样可以实现将自己的平台搭建在多台实体计算机上,以便更加接近于大数据和机器学习真实的运行环境。
本书非常适合于学习大数据基础知识的初学者阅读,更适合正在学习大数据理论和技术的人员作为上机实践用的教材。
目录
- 第1章 Python Spark机器学习与Hadoop大数据 1
- 第2章 VirtualBox虚拟机软件的安装 19
- 第3章 Ubuntu Linux 操作系统的安装 30
- 第4章 Hadoop Single Node Cluster的安装 57
- 第5章 Hadoop Multi Node Cluster的安装 80
- 第6章 Hadoop HDFS命令 117
- 第7章 Hadoop MapReduce 135
- 第8章 Python Spark的介绍与安装 148
- 第9章 在 IPythonNotebook 运行 Python Spark 程序 176
- 第10章 Python Spark RDD 197
- 第11章 Python Spark的集成开发环境 229
- 第12章 Python Spark创建推荐引擎 281
- 第13章 Python Spark MLlib决策树二元分类 311
- 第14章 Python Spark MLlib 逻辑回归二元分类 361
- 第15章 Python Spark MLlib支持向量机SVM二元分类 373
- 第16章 Python Spark MLlib朴素贝叶斯二元分类 382
- 第17章 Python Spark MLlib决策树多元分类 391
- 第18章 Python Spark MLlib决策树回归分析 407
- 第19章 Python Spark SQL、DataFrame、RDD数据统计与可视化 425
- 第20章 Spark ML Pipeline 机器学习流程二元分类 462
- 第21章 Spark ML Pipeline 机器学习流程多元分类 486
- 第22章 Spark ML Pipeline 机器学习流程回归分析 499
搭建Spark 2.x+Python开发环境及基本开发入门 1、快速环境搭建:导入Windows7虚拟机至VMWARE及启动系统和远程桌面连接 2、快速环境搭建:Windows系统如何安装pyspark模块到Anaconda及启动PyCharm了解Spark MLlib机器学习库源码及走读 3、快速环境搭建:使用PyCharm开发Spark程序(读取文本数据封装RDD) 4、PySpark SQL快速开发:结构化海量数据处理框架SparkSQL介绍、DataFrame概述及分析数据两种方式 5、PySpark SQL快速开发:使用SparkSession读取文本数据分析及CSV格式数据分析(封装DataFrame分布式数据集) 6、PySpark SQL快速开发:基于Jupyter Notebook读取航空航天数据、使用DSL分析 7、PySpark SQL快速开发:使用DSL分析航天航空数据及如何将DataFrame转换为Pandas中dataframe
本课程系统讲解如何在Spark2.0上高效运用Python来处理数据并建立机器学习模型,帮助读者开发并部署高效可拓展的实时Spark解决方案。 本课程从浅显易懂的“大数据和机器学习”原理说明入手,讲述大数据和机器学习的基本概念,如分析、分类、训练、建模、预测、推荐引擎、二元分类、多元分类、回归分析和Pipeline等; 为降低学习大数据技术的门槛,提供了丰富的案例实践操作和范例程序编码,展示了如何在单机Windows系统上建立Spark 2.x + Python开发环境; 适合于学习大数据基础知识的初学者,更适合正在使用机器学习想结合大数据技术的人员;