作者:(美)萨默 著,刘敏,麦耀锋,李冀蕾 等译
出版时间:2013
丛编项: "十二五"国家重点图书出版规划项目
Hadoop正在成为数据中心进行大型数据处理的实际标准,但市场中却一直缺少关于它的详细操作说明书Hadoop技术详解/“十二五”国家重点图书出版规划项目》作者EricSammer系Cloudera公司的首席架构师,全书将从计划、安装、配置Hadoop系统开始讲起,一直深入到系统调试、维护等方面的知识,向读者展示了Hadoop生产运行环境的详细情况。同时,《Hadoop技术详解/“十二五”国家重点图书出版规划项目》并不只是简述所有的操作工序,而是突出示范了关键部署中的关键操作。Hadoop技术详解/“十二五”国家重点图书出版规划项目》适合对大数据感兴趣的爱好者以及正在使用Hadoop系统的数据库管理员阅读使用。
目录
- 第1章 简介
- 第2章 HDFS
- 2.1 目标和动机
- 2.2 设计
- 2.3 守护进程
- 2.4 读写数据
- 2.4.1 数据读取流程
- 2.4.2 数据写操作流程
- 2.5 管理文件系统元数据
- 2.6 NameNode的高可用性
- 2.7 NameNode联盟
- 2.8 访问与集成
- 2.8.1 命令行工具
- 2.8.2 用户空间文件系统(FUSE)
- 2.8.3 表示状态传输(REST)的支持
- 第3章 MapReduce
- 3.1 MapReduce的若干阶段
- 3.2 Hadoop MapReduce简介
- 3.2.1 后台程序
- 3.2.2 出错处理
- 3.3 YARN
- 第4章 规划一个Hadoop集群
- 4.1 挑选Hadoop的发行版本
- 4.1.1 Apache Hadoop
- 4.1.2 Cloudera的Apache Hadoop发行版本
- 4.1.3 版本和功能
- 4.1.4 我应该使用哪个版本
- 4.2 硬件选型
- 4.2.1 主节点硬件的选择
- 4.2.2 工作节点的硬件选择
- 4.2.3 集群的大小
- 4.2.4 刀片服务器、存储区域网络(SAN)和虚拟化
- 4.3 操作系统的选择和准备
- 4.3.1 部署规划
- 4.3.2 软件
- 4.3.3 主机名、DNS和标识
- 4.3.4 用户、组和特权
- 4.4 内核调整
- 4.4.1 vm.swappiness
- 4.4.2 vm.overcommit_memory
- 4.5 磁盘配置
- 4.5.1 选择文件系统
- 4.5.2 挂载选项
- 4.6 网络设计
- 4.6.1 Hadoop中的网络使用:回顾
- 4.6.2 1 Gb与10 Gb网络
- 4.6.3 典型的网络拓扑
- 第5章 安装和配置
- 5.1 安装Hadoop
- 5.1.1 Apache Hadoop
- 5.1.2 CDH
- 5.2 配置概述
- 5.3 环境变量和Shell脚本
- 5.4 日志配置
- 5.5 HDFS
- 5.5.1 识别和定位
- 5.5.2 优化与调整
- 5.5.3 格式化NameNode
- 5.5.4 创建/tmp目录
- 5.6 NameNode的高可靠性
- 5.6.1 隔离(Fencing)选项
- 5.6.2 基本配置
- 5.6.3 自动失效备援配置
- 5.6.4 格式化和引导NameNode启动
- 5.7 NameNode联盟(Federation)
- 5.8 MapReduce
- 5.8.1 识别和定位
- 5.8.2 优化和调整
- 5.9 机架拓扑
- 5.10 安全
- 第6章 用户标识、身份验证和授权
- 6.1 用户标识
- 6.2 Kerberos和Hadoop
- 6.2.1 Kerberos
- 6.2.2 Hadoop上的Kerberos支持
- 6.3 授权
- 6.3.1 HDFS
- 6.3.2 MapReduce
- 6.3.3 其他工具和系统
- 6.4 集成试试
- 第7章 资源管理
- 7.1 何谓资源管理
- 7.2 HDFS配额
- 7.3 MapReduce 调度器
- 7.3.1 先进先出(FIFO)调度器
- 7.3.2 公平调度器
- 7.3.3 计算能力调度器(Capacity Scheduler)
- 7.3.4 未来发展
- 第8章 集群维护
- 8.1 Hadoop流程管理
- 8.1.1 用初始化脚本管理进程
- 8.1.2 手动管理进程
- 8.2 HDFS维护任务
- 8.2.1 添加一个DataNode
- 8.2.2 卸载DataNode
- 8.2.3 用fsck来检查文件系统的一致性
- 8.2.4 HDFS块数据均衡
- 8.2.5 处理坏磁盘
- 8.3 MapReduce维护任务
- 8.3.1 添加tasktracker
- 8.3.2 卸载tasktracker
- 8.3.3 终结MapReduce 作业
- 8.3.4 终结MapReduce任务
- 8.3.5 处理列入黑名单的tasktracker
- 第9章 故障分析与排查
- 9.1 鉴别诊断(Differential Diagnosis)
- 9.2 故障和问题
- 9.2.1 人类(自己)
- 9.2.2 配置错误
- 9.2.3 硬件故障
- 9.2.4 资源枯竭
- 9.2.5 主机标识和命名
- 9.2.6 网络分区
- 9.3 “计算机插好了么?”
- 9.4 治疗和护理
- 9.5 实战案例
- 9.5.1 神秘的瓶颈
- 9.5.2 127.0.0.1这个地址不存在
- 第10章 监控
- 10.1 概览
- 10.2 Hadoop度量(Metrics)
- 10.2.1 Apache Hadoop 0.20.0和CDH3 (metrics1)
- 10.2.2 Apache Hadoop 0.20.203及之后的版本、CDH4(metrics2)
- 10.2.3 SNMP
- 10.3 健康监控
- 10.3.1 主机级别的检查
- 10.3.2 所有Hadoop进程
- 10.3.3 HDFS检查
- 10.3.4 MapReduce检查
- 第11章 备份与恢复
- 11.1 数据备份
- 11.1.1 分布式拷贝(distcp)
- 11.1.2 并行提取数据
- 11.2 NameNode元数据
- 附录 弃用的配置属性