当前位置：主页 > 书籍配套资源 > PySpark配套资源

《PySpark实战指南：利用Python和Spark构建数据密集型应用并规模化部署》源码

更新：2022-02-22
大小：7.57 MB
类别：PySpark
作者：托马兹·卓巴斯
出版：机械工业出版社
格式：PDF

资源介绍
相关推荐

本文从Spark的基本特点出发，借助大量例子详细介绍了关于使用Python调用Spark新特性的方法、处理结构化及非结构化数据的方法、使用PySpark中基本可用数据类型的方法、生成机器学习模型方法、进行图像操作以及阅读串流数据的方法等等新兴技术内容。

封面图

译者序
序
前言
关于作者
第1章了解Spark1
1.1什么是Apache Spark1
1.2Spark作业和API2
1.2.1执行过程2
1.2.2弹性分布式数据集3
1.2.3DataFrame4
1.2.4Dataset5
1.2.5Catalyst优化器5
1.2.6钨丝计划5
1.3Spark 2.0的架构6
1.3.1统一Dataset和DataFrame7
1.3.2SparkSession介绍8
1.3.3Tungsten Phase 28
1.3.4结构化流10
1.3.5连续应用10
1.4小结11
第2章弹性分布式数据集12
2.1RDD的内部运行方式12
2.2创建RDD13
2.2.1Schema 14
2.2.2从文件读取14
2.2.3Lambda表达式15
2.3全局作用域和局部作用域16
2.4转换17
2.4.1.map(...)转换17
2.4.2.filter(...)转换18
2.4.3.flatMap(...)转换18
2.4.4.distinct(...)转换18
2.4.5.sample(...)转换19
2.4.6.leftOuterJoin(...)转换19
2.4.7.repartition(...)转换20
2.5操作20
2.5.1.take(...)方法21
2.5.2.collect(...)方法21
2.5.3.reduce(...)方法21
2.5.4.count(...)方法22
2.5.5.saveAsTextFile(...)方法22
2.5.6.foreach(...)方法23
2.6小结23
第3章DataFrame24
3.1Python到RDD之间的通信24
3.2Catalyst优化器刷新25
3.3利用DataFrame加速PySpark27
3.4创建DataFrame28
3.4.1生成自己的JSON数据29
3.4.2创建一个DataFrame29
3.4.3创建一个临时表30
3.5简单的DataFrame查询31
3.5.1DataFrame API查询32
3.5.2SQL查询32
3.6RDD的交互操作33
3.6.1使用反射来推断模式33
3.6.2编程指定模式34
3.7利用DataFrame API查询35
3.7.1行数35
3.7.2运行筛选语句35
3.8利用SQL查询36
3.8.1行数36
3.8.2利用where子句运行筛选语句 36
3.9DataFrame场景——实时飞行性能38
3.9.1准备源数据集38
3.9.2连接飞行性能和机场39
3.9.3可视化飞行性能数据40
3.10Spark数据集（Dataset）API41
3.11小结42
第4章准备数据建模43
4.1检查重复数据、未观测数据和异常数据（离群值）43
4.1.1重复数据43
4.1.2未观测数据46
4.1.3离群值50
4.2熟悉你的数据 51
4.2.1描述性统计52
4.2.2相关性54
4.3可视化55
4.3.1直方图55
4.3.2特征之间的交互58
4.4小结60
第5章 MLlib介绍61
5.1包概述61
5.2加载和转换数据62
5.3了解你的数据65
5.3.1描述性统计66
5.3.2相关性67
5.3.3统计测试69
5.4创建最终数据集70
5.4.1创建LabeledPoint形式的RDD70
5.4.2分隔培训和测试数据71
5.5预测婴儿生存机会71
5.5.1MLlib中的逻辑回归71
5.5.2只选择最可预测的特征72
5.5.3MLlib中的随机森林73
5.6小结74
第6章ML包介绍75
6.1包的概述75
6.1.1转换器75
6.1.2评估器78
6.1.3管道80
6.2使用ML预测婴儿生存几率80
6.2.1加载数据80
6.2.2创建转换器81
6.2.3创建一个评估器82
6.2.4创建一个管道82
6.2.5拟合模型83
6.2.6评估模型的性能84
6.2.7保存模型84
6.3超参调优85
6.3.1网格搜索法85
6.3.2Train-validation 划分88
6.4使用PySpark ML的其他功能89
6.4.1特征提取89
6.4.2分类93
6.4.3聚类95
6.4.4回归98
6.5小结99
第7章GraphFrames100
7.1GraphFrames介绍102
7.2安装GraphFrames102
7.2.1创建库103
7.3准备你的航班数据集105
7.4构建图形107
7.5执行简单查询108
7.5.1确定机场和航班的数量108
7.5.2确定这个数据集中的最长延误时间108
7.5.3确定延误和准点/早到航班的数量对比109
7.5.4哪一班从西雅图出发的航班最有可能出现重大延误109
7.5.5西雅图出发到哪个州的航班最有可能出现重大延误110
7.6理解节点的度110
7.7确定最大的中转机场112
7.8理解Motif113
7.9使用PageRank确定机场排名114
7.10确定最受欢迎的直飞航班115
7.11使用广度优先搜索116
7.12使用D3将航班可视化118
7.13小结119
第8章TensorFrames120
8.1深度学习是什么120
8.1.1神经网络和深度学习的必要性123
8.1.2特征工程是什么125
8.1.3桥接数据和算法125
8.2TensorFlow是什么127
8.2.1安装PIP129
8.2.2安装TensorFlow 129
8.2.3使用常量进行矩阵乘法130
8.2.4使用placeholder进行矩阵乘法131
8.2.5讨论132
8.3TensorFrames介绍133
8.4TensorFrames快速入门134
8.4.1配置和设置134
8.4.2使用TensorFlow向已有列添加常量136
8.4.3Blockwise reducing操作示例137
8.5小结139
第9章使用Blaze实现混合持久化141
9.1安装Blaze141
9.2混合持久化142
9.3抽象数据143
9.3.1使用NumPy 数组 143
9.3.2使用pandas的DataFrame145
9.3.3使用文件145
9.3.4使用数据库147
9.4数据操作149
9.4.1访问列150
9.4.2符号转换150
9.4.3列的操作151
9.4.4降阶数据152
9.4.5连接154
9.5小结156
第10章结构化流157
10.1什么是Spark Streaming157
10.2为什么需要Spark Streaming159
10.3Spark Streaming应用程序数据流是什么160
10.4使用DStream简化Streaming应用程序161
10.5全局聚合快速入门165
10.6结构化流介绍168
10.7小结172
第11章打包Spark应用程序173
11.1spark-submit命令173
11.2以编程方式部署应用程序176
11.2.1配置你的SparkSession 176
11.2.2创建SparkSession 177
11.2.3模块化代码177
11.2.4提交作业180
11.2.5监控执行182
11.3Databricks作业184
11.4小结186

资源获取

高速下载(提取码：3t7z)

网友留言

最近更新

05-29Python视觉实战项目31讲
05-29Go语言面试八股文大全
05-29MySQL 8.4中文手册
05-29华为OD机考100题(真题)
05-29Python+OpenCV入门计算机视觉实战项目52讲 v1.0
05-21Modbus协议
05-21PCIE规范合集(PCI_Express_Base 1.0/2.1/3.0/4.0/5.0/6.0)
05-21深入理解Rust并发编程

热门资源

精选留言

《PySpark实战指南：利用Python和Spark构建数据密集型应用并规模化部署》源码

封面图

目录

pyspark从入门到精通(Learning Apache Spark with Python)最新PDF版

PySpark实战指南

资源获取

相关资源

Python Web开发：测试驱动方法

Python数据可视化之matplotlib实践

自学python教程视频

Python编程:从入门到实践（第2版）

Python数据分析与挖掘实战（配套数据及代码）

Python3网络爬虫开发实战

网友留言

《PySpark实战指南：利用Python和Spark构建数据密集型应用并规模化部署 》源码

封面图

目录

资源获取

相关资源

网友留言

《PySpark实战指南：利用Python和Spark构建数据密集型应用并规模化部署》源码