深层次讲解Hadoop2.0,升级版,实战性更强。书要刘鹏专家教授总编的中国第一本Hadoop程序编写书藉《实战Hadoop》的其次版。Hadoop称得上业内最經典的开源系统云计算技术和数据管理平台手机软件。这书系统软件详细介绍了Hadoop 2.0生态链的关键和拓展部件,包含:可视化工具Ambari、分布式文件系统HDFS、分布式系统资源管理器YARN、分布式系统并行计算MapReduce、运行内存型测算架构Spark、数据流实时处理系统软件Storm、分布式锁服务项目ZooKeeper、分布式数据库HBase、数据仓库小工具Hive,及其Pig、Oozie、Flume、Mahout等。
核心内容:分布式系统,系统软件,刘鹏,中国,經典,实战,实时处理,分布式文件系统,数据管理平台,分布式锁
目录
- 内容简介
- 第二版前言
- 第一版前言
- 第1章 大数据组件概述
- 1.1 Google大数据组件
- 1.2 Apache大数据组件
- 1.2.1 Hadoop核心组件
- 1.2.2 基于MR的数据分析组件
- 1.2.3 数据库组件
- 1.2.4 BSP组件
- 1.2.5 基于YARN框架组件
- 1.2.6 基于YARN的编程类库组件
- 1.2.7 搜索引擎组件
- 1.2.8 工作流组件
- 1.2.9 数据流组件
- 1.2.10 序列化和持久化组件
- 1.2.11 调试工具
- 1.2.12 安全性组件
- 1.2.13 兼容性组件
- 1.2.14 集群部署与管理组件
- 习 题
- 参考文献
- 第2章 大数据集群
- 2.1 大数据集群简介
- 2.2 大数据集群bigCstor
- 2.3 我的大数据集群littleCstor
- 2.4 小结
- 习 题
- 参考文献
- 第3章 集群管理工具Ambari
- 3.1 Ambari简介
- 3.2 使用Ambari部署HDP
- 3.3 使用Ambari搭建littleCstor
- 3.3.1 相关约定
- 3.3.2 制定部署规划
- 3.3.3 搭建prelittleCstor
- 3.3.4 本地建仓
- 3.3.5 部署AmbariServer
- 3.3.6 搭建littleCstor
- 3.3.7 小结
- 3.4 使用Ambari管理littleCstor
- 3.5 小结
- 习 题
- 参考文献
- 第4章 分布式文件系统HDFS
- 4.1 分布式存储引例
- 4.1.1 问题描述
- 4.1.2 常规解决方案
- 4.1.3 分布式解决方案
- 4.2 HDFS简介
- 4.2.1 HDFS逻辑架构
- 4.2.2 HDFS物理拓扑
- 4.2.3 HDFS部署
- 4.2.4 HDFS其他概念
- 4.3 HDFS接口
- 4.4 实战HDFS Shell
- 4.4.1 HDFS文件级命令集
- 4.4.2 HDFS系统级命令集
- 4.5 实战WebHDFS
- 4.5.1 WebHDFS简介
- 4.5.2 WebHDFS示例
- 4.6 实战HDFS JAVA API
- 4.6.1 搭建开发环境
- 4.6.2 常规操作示例
- 4.7 实战HDFS大项目:用HDFS存储海量视频数据
- 4.7.1 应用场景
- 4.7.2 设计实现
- 习 题
- 参考文献
- 第5章 分布式资源管理器YARN
- 5.1 分布式资源管理器引例
- 5.1.1 分布式资源管理器简介
- 5.1.2 分布式资源管理器架构
- 5.2 YARN简介
- 5.2.1 基础概念
- 5.2.2 物理拓扑
- 5.2.3 体系架构
- 5.2.4 集群部署
- 5.3 YARN接口
- 5.4 实战YARN Shell
- 5.4.1 系统级命令
- 5.4.2 程序级命令
- 5.4.3 其他辅助命令
- 5.5 实战YARN编程
- 5.5.1 常见并行化范式
- 5.5.2 YARN编程步骤
- 5.6 实战YARN编程之DistributedShell
- 5.6.1 DistributedShell简介
- 5.6.2 编写DistributedShell
- 5.7 实战YARN编程之三大范式
- 5.7.1 DistributedShell
- 5.7.2 MapReduce
- 5.7.3 Giraph
- 习 题
- 参考文献
- 第6章 分布式并行处理MapReduce
- 6.1 并行化范式M-S-R引例
- 6.1.1 问题描述
- 6.1.2 常规解决方案
- 6.1.3 分布式解决方案
- 6.1.4 小结
- 6.2 MapReduce简介
- 6.2.1 基本概念
- 6.2.2 编程模型
- 6.2.3 集群部署
- 6.2.4 体系架构
- 6.2.5 执行过程
- 6.3 MapReduce接口
- 6.4 实战MapReduce Shell
- 6.5 实战MapReduce编程
- 6.6 实战MapReduce编程之WordCount
- 6.6.1 WordCount代码分析
- 6.6.2 WordCount处理过程
- 6.7 实战MapReduce编程之SecondarySort
- 6.8 实战MapReduce编程之倒排索引
- 6.8.1 简介
- 6.8.2 分析与设计
- 6.8.3 倒排索引完整源码
- 6.9 实战MapReduce之性能优化
- 习 题
- 参考文献
- 第7章 分布式锁服务ZooKeeper
- 7.1 ZooKeeper简介
- 7.1.1 ZooKeeper应用场景
- 7.1.2 ZooKeeper体系架构
- 7.1.3 ZooKeeper服务模型
- 7.1.4 ZooKeeper部署
- 7.2 ZooKeeper接口
- 7.2.1 接口汇总
- 7.2.2 实战ZooKeeper Shell
- 7.3 实战ZooKeeper编程
- 7.4 实战ZooKeeper之进程通信
- 7.5 实战ZooKeeper之进程调度系统
- 7.5.1 设计方案
- 7.5.2 设计实现
- 7.6 实战ZooKeeper之实现NameNode自动切换
- 7.6.1 设计思想
- 7.6.2 详细设计
- 7.6.3 编码
- 7.6.4 实战总结
- 习 题
- 参考文献
- 第8章 分布式数据库HBase
- 8.1 HBase简介
- 8.1.1 体系架构
- 8.1.2 数据模型
- 8.1.3 集群部署
- 8.2 HBase接口
- 8.3 实战HBase Shell
- 8.4 实战HBase API
- 8.5 实战HBase之综例
- 8.6 实战HBase之使用MapReduce构建索引
- 8.6.1 索引表蓝图
- 8.6.2 HBase和MapReduce
- 8.6.3 实现索引
- 习 题
- 参考文献
- 第9章 内存型计算框架Spark
- 9.1 Spark简介
- 9.1.1 基础概念
- 9.1.2 体系架构
- 9.1.3 集群部署
- 9.1.4 计算模型
- 9.1.5 工作机制
- 9.1.6 其他特性
- 9.2 Spark接口
- 9.3 实战Spark Shell
- 9.3.1 集群管理
- 9.3.2 任务管理
- 9.4 实战Spark编程之RDD
- 9.4.1 RDD属性
- 9.4.2 并行化证明RDD、调试RDD
- 9.4.3 RDD操作
- 9.5 实战Spark之WordCount
- 9.6 实战Spark之MLLib
- 习 题
- 参考文献
- 第10章 数据流实时处理系统Storm
- 10.1 Storm简介
- 10.1.1 与Hadoop的关系
- 10.1.2 基础概念
- 10.1.3 体系架构[3]
- 10.1.4 集群部署
- 10.1.5 计算模型
- 10.2 Storm接口
- 10.3 实战Storm Shell
- 10.4 实战Storm API之RollingTopWords
- 习 题
- 参考文献
- 第11章 数据仓库工具Hive
- 11.1 Hive简介
- 11.1.1 工作原理
- 11.1.2 体系架构
- 11.1.3 计算模型
- 11.1.4 集群部署
- 11.2 Hive接口
- 11.2.1 接口汇总
- 11.2.2 实战Hive Web
- 11.3 实战Hive Shell
- 11.3.1 DDL Operations
- 11.3.2 DML Operations
- 11.3.3 SQL Operations
- 11.4 实战Hive之复杂语句
- 11.5 实战Hive之综合示例
- 11.6 实战Hive API接口
- 11.6.1 UDF编程示例
- 11.6.2 UDAF编程示例
- 习 题
- 参考文献
- 第12章 其他常见大数据组件
- 12.1 Pig
- 12.1.1 Pig简介
- 12.1.2 实战Pig
- 12.2 Oozie
- 12.2.1 Oozie简介
- 12.2.2 实战Oozie
- 12.3 Flume
- 12.3.1 Flume简介
- 12.3.2 实战Flume
- 12.4 Mahout
- 12.4.1 Mahout简介
- 12.4.2 实战Mahout
- 习 题
- 参考文献
- 附录A 手工部署Hadoop2.0
- 一、部署综述
- 二、部署步骤