【离线和实时大数据开发实战】是一本非常实用的指导书籍,特别适合对大数据、数据结构以及超清数据处理技术感兴趣的读者。本书全面介绍了大数据的相关概念,以及如何构建数据结构和处理超清数据的技术。通过学习本书,读者将深入了解大数据开发的实际操作,并掌握离线和实时数据处理的关键技术。这将为读者在大数据领域取得更加优秀的成果提供有力的帮助。本书内容丰富全面,对于希望在大数据开发领域取得突破的读者来说,是一本不可多得的实战良书。
离线和实时大数据开发实战 电子书封面
读者评价
入门读物,了解大数据开发的相关生态和一些基本概念,没有深入实战与细节,不过对我来说够了。只看了工作中相关的一些章节
粗略扫了一遍。作者的技术真的非常牛,但是这本书写得很一般。 只讲实用有效的“招式”,作者如是说。。。读起来很无味。技术的宽度也不够,比如第三章的mapreduce,描述还是第一代的架构,本身的几个步骤也没讲对。书名为“实战”,但是每个技术适合的应用场景是什么?一堆技术堆成一本书,然后拿着这些锤子去找钉子吗?
不够细致,实战案例太少,方法理论倒是很多
内容介绍
本书分为三篇。第壹篇:从整体上给出数据大图和数据平台大图,主要介绍数据的主要流程、各个流程的关键技术、数据的主要从业者及他们的职责等;数据平台大图分离线和实时分别给出数据平台架构、关键数据概念和技术等;第二篇:介绍离线数据开发的主要技术,包含Hadoop、Hive、维度建模等,另外此部分还将综合上述各种离线技术给出离线数据处理实战;第三篇:集中介绍实时数据处理的各项技术,包含Storm、SparkSteaming、Flink、Beam等。
目录
- 前言
- 第一篇 数据大图和数据平台大图
- 第1章 数据大图 2
- 第2章 数据平台大图 18
- 第二篇 离线数据开发:大数据开发的主战场
- 第3章 Hadoop原理实践 38
- 第4章 Hive原理实践 53
- 第5章 Hive优化实践 77
- 第6章 维度建模技术实践 90
- 第7章 Hadoop数据仓库开发实战 111
- 第三篇 实时数据开发:大数据开发的未来
- 第8章 Storm流计算开发 127
- 第9章 Spark Streaming流计算开发 151
- 第10章 Flink流计算开发 167
- 第11章 Beam技术 189
- 第12章 Stream SQL实时开发实战 206
- 参考文献 224
Spark有哪两种算子? 我:Transformation(转化)算子和Action(执行)算子。 Spark提交你的jar包时所用的命令是什么? 我:submit。 面试官:spark-submit? 我:嗯,spark-submit。 Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子? 我:aggeragate 面试官:还有呢? 我:记不清了。。。 面试官:还有你刚刚写的那个groupByKey哈
MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker;另一个是TaskTracker,JobTracker是用于调度工作的,TaskTracker是用于执行工作的。一个Hadoop集群中只有一台JobTracker。 在分布式计算中,MapReduce框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题,把处理过程高度抽象为两个函数:map和reduce,map负责把任务分解成多个任务,reduce负责把分解后多任务处理的结果汇总起来。 需要注意的是,用MapReduce来处理的数据集(或任务)必须具备这样的特点:待处理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理。