Spark是不断壮大的大数据分析解决方案家族中备受关注的新增成员。它不仅为分布式数据集的处理提供一个有效框架,而且以高效的方式处理分布式数据集。它支持实时处理、流处理和批处理,提供了AllinOne的统一解决方案,使得Spark极具竞争力。《Spark技术内幕:深入解析Spark内核架构设计与实现原理》以源码为基础,深入分析Spark内核的设计理念和架构实现,系统讲解各个核心模块的实现,为性能调优、二次开发和系统运维提供理论支持;本文最后以项目实战的方式,系统讲解生产环境下Spark应用的开发、部署和性能调优。
目录
- 第1章 Spark简介1
- 第2章 Spark学习环境的搭建9
- 第3章 RDD实现详解16
- 第4章 Scheduler 模块详解41
- 第5章 Deploy模块详解76
- 第6章 Executor模块详解112
- 第7章 Shuffle模块详解134
- 第8章 Storage模块详解167
- 第9章 企业应用概述197