历经很多年的发展趋势,大数据解决技术性逐渐完善。做为业界大数据测算的事实标准,ApacheSpark系统早已广泛运用于各大型企业与科学研究组织,并产生详细的绿色生态系统。Spark系统包括了SQL、GraphX和R等每个子系统以适用不一样业务流程行业的要求。做为传统式关系型数据库/数据库管理在大数据情景下的解决方法,SparkSQL早已变成了业界的关键挑选计划方案,另外也变成了Spark开源社区中*为活跃性的一部分。这书聚焦点于SparkSQL系统,对其总体构架、內部每个控制模块的技术性完成体制开展源代码级別的分析,涉及SQL编译器、逻辑性计划、物理学执行计划、关键查寻(如Aggregation与Join等)的关键技术。除此之外,这书內容上还会融合环境的大量运用,共享很多真正开发设计实例与实践活动提升工作经验。
目录
- 第 1 章 Spark SQL 背景
- 第 2 章 Spark 基础知识介绍
- 第 3 章 Spark SQL 执行全过程概述
- 第 4 章 Spark SQL 编译器 Parser
- 第 5 章 Spark SQL 逻辑计划(LogicalPlan)
- 第 6 章 Spark SQL 物理计划(PhysicalPlan)
- 第 7 章 Spark SQL 之 Aggregation 实现
- 第 8 章 Spark SQL 之 Join 实现
- 第 9 章 Tungsten 技术实现
- 第 10 章 Spark SQL 连接 Hive
- 第 11 章 Spark SQL 开发与实践
- 总结
- 参考文献