当前位置:主页 > 计算机电子书 > 程序设计 > Hadoop下载
Python+Spark2.0+Hadoop机器学习与大数据实战

Python+Spark2.0+Hadoop机器学习与大数据实战 PDF 高质量版

  • 更新:2023-08-04
  • 大小:109 MB
  • 类别:Hadoop
  • 作者:林大贵
  • 出版:清华大学出版社
  • 格式:PDF

  • 资源介绍
  • 相关推荐

《Python+Spark2.0+Hadoop机器学习与大数据实战》是一本内容丰富的书籍。本书注重从浅显易懂的角度解释了大数据和机器学习的原理,同时还介绍了它们的基本概念。通过逐步操作和详细讲解范例程序,读者能够很好地理解和掌握机器学习和大数据技术。这本书的主题是降低机器学习和大数据技术的难度,它将通过简明易懂的原理介绍和实机操作帮助读者实现这一目标。无论是对初学者还是对有一定经验的读者来说,这本书都是个不错的选择。

Python+Spark2.0+Hadoop机器学习与大数据实战

Python+Spark2.0+Hadoop机器学习与大数据实战

读者评价

做分布式作业的时候参考过这本书,作者写得挺仔细的作为入门真的挺棒。就是作者留的配套代码是用百度网盘的地址,我当时下的时候已经失效了后来找作者要了一份。我已经上传到github了,希望帮到后来的人https://github.com/crabdriver/Python-Spark-2.0-Hadoop-
首先请作者不要介意 不过看了之后对Hadoop和Spark基本没啥了解 印象深的是冗长的环境搭建描述 总之不推荐阅读
虽然内容可能没有很深入,但作者非常用心的把每一步操作详细的列出来并给出说明,让我们跟着做的时候非常有信心,没有出现奇奇怪怪的报错,没有不知道为啥就是进行不下去的情况。这本书用实例告诉你spark,hdfs的基础使用和操作方法,让你快速入门,懂得操作。后面再进行针对性的入门和进阶,就会非常顺手

内容介绍

《Python+Spark 2.0+Hadoop机器学习与大数据实战》从浅显易懂的“大数据和机器学习”原理说明入手,讲述大数据和机器学习的基本概念,如分类、分析、训练、建模、预测、机器学习(推荐引擎)、机器学习(二元分类)、机器学习(多元分类)、机器学习(回归分析)和数据可视化应用等。

书中不仅加入了新近的大数据技术,还丰富了“机器学习”内容。 为降低读者学习大数据技术的门槛,书中提供了丰富的上机实践操作和范例程序详解,展示了如何在单机Windows系统上通过Virtual Box虚拟机安装多机Linux虚拟机,如何建立Hadoop集群,再建立Spark开发环境。书中介绍搭建的上机实践平台并不限制于单台实体计算机。对于有条件的公司和学校,参照书中介绍的搭建过程,同样可以实现将自己的平台搭建在多台实体计算机上,以便更加接近于大数据和机器学习真实的运行环境。

本书非常适合于学习大数据基础知识的初学者阅读,更适合正在学习大数据理论和技术的人员作为上机实践用的教材。

目录

  • 第1章 Python Spark机器学习与Hadoop大数据 1
  • 第2章 VirtualBox虚拟机软件的安装 19
  • 第3章 Ubuntu Linux 操作系统的安装 30
  • 第4章 Hadoop Single Node Cluster的安装 57
  • 第5章 Hadoop Multi Node Cluster的安装 80
  • 第6章 Hadoop HDFS命令 117
  • 第7章 Hadoop MapReduce 135
  • 第8章 Python Spark的介绍与安装 148
  • 第9章 在 IPythonNotebook 运行 Python Spark 程序 176
  • 第10章 Python Spark RDD 197
  • 第11章 Python Spark的集成开发环境 229
  • 第12章 Python Spark创建推荐引擎 281
  • 第13章 Python Spark MLlib决策树二元分类 311
  • 第14章 Python Spark MLlib 逻辑回归二元分类 361
  • 第15章 Python Spark MLlib支持向量机SVM二元分类 373
  • 第16章 Python Spark MLlib朴素贝叶斯二元分类 382
  • 第17章 Python Spark MLlib决策树多元分类 391
  • 第18章 Python Spark MLlib决策树回归分析 407
  • 第19章 Python Spark SQL、DataFrame、RDD数据统计与可视化 425
  • 第20章 Spark ML Pipeline 机器学习流程二元分类 462
  • 第21章 Spark ML Pipeline 机器学习流程多元分类 486
  • 第22章 Spark ML Pipeline 机器学习流程回归分析 499

资源下载

资源下载地址1:https://pan.baidu.com/s/1hJPUOWCEWNeOioHTEFgqDw

相关资源

网友留言

网友NO.23635
冷元化

搭建Spark 2.x+Python开发环境及基本开发入门 1、快速环境搭建:导入Windows7虚拟机至VMWARE及启动系统和远程桌面连接 2、快速环境搭建:Windows系统如何安装pyspark模块到Anaconda及启动PyCharm了解Spark MLlib机器学习库源码及走读 3、快速环境搭建:使用PyCharm开发Spark程序(读取文本数据封装RDD) 4、PySpark SQL快速开发:结构化海量数据处理框架SparkSQL介绍、DataFrame概述及分析数据两种方式 5、PySpark SQL快速开发:使用SparkSession读取文本数据分析及CSV格式数据分析(封装DataFrame分布式数据集) 6、PySpark SQL快速开发:基于Jupyter Notebook读取航空航天数据、使用DSL分析 7、PySpark SQL快速开发:使用DSL分析航天航空数据及如何将DataFrame转换为Pandas中dataframe

网友NO.27180
逢淳静

本课程系统讲解如何在Spark2.0上高效运用Python来处理数据并建立机器学习模型,帮助读者开发并部署高效可拓展的实时Spark解决方案。 本课程从浅显易懂的“大数据和机器学习”原理说明入手,讲述大数据和机器学习的基本概念,如分析、分类、训练、建模、预测、推荐引擎、二元分类、多元分类、回归分析和Pipeline等; 为降低学习大数据技术的门槛,提供了丰富的案例实践操作和范例程序编码,展示了如何在单机Windows系统上建立Spark 2.x + Python开发环境; 适合于学习大数据基础知识的初学者,更适合正在使用机器学习想结合大数据技术的人员;