Hadoop权威指南(第4版)(修订版&全新升级)融合基础理论和实践活动,循序渐进,多方位详细介绍了Hadoop这一性能卓越的海量信息解决和剖析服务平台。
本书5一部分24章,第Ⅰ一部分详细介绍Hadoop基本知识,主题风格涉及到Hadoop、MapReduce、Hadoop分布式存储、YARN、Hadoop的I/O实际操作。
第Ⅱ一部分详细介绍MapReduce,主题风格包含MapReduce应用程序开发;MapReduce的工作方案、MapReduce的种类与文件格式、MapReduce的特点。第Ⅲ一部分详细介绍Hadoop的运维管理,主题风格涉及到搭建Hadoop群集、管理方法Hadoop。第Ⅳ一部分详细介绍Hadoop有关开源网站项目,主题风格涉及到Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ一部分出示了三个实例,各自来源于医疗服务信息科技服务提供商塞纳(Cerner)、微软公司的人工智能技术新项目ADAM(一种规模性分布式系统深度神经网络架构)和开源网站项目Cascading(一个新的对于MapReduce的数据处理方法API)。
这书是一本权威、全方位的Hadoop教材和专业书籍,论述了Hadoop生态链的全新发展趋势和运用,程序猿能够 从这当中探寻海量信息集的储存和剖析,管理人员能够 从这当中掌握Hadoop群集的安裝和运维管理。
目录
- 第Ⅰ部分 Hadoop基础知识
- 第1章 初识Hadoop 3
- 第2章 关于MapReduce 19
- 第3章 Hadoop分布式文件系统 42
- 第4章 关于YARN 78
- 第5章 Hadoop的I/O操作 96
- 第Ⅱ部分 关于MapReduce
- 第6章 MapReduce应用开发 141
- 第7章 MapReduce的工作机制 184
- 第8章 MapReduce的
- 第9章 MapReduce的特性 243
- 第Ⅲ部分 Hadoop的操作
- 第10章 构建Hadoop集群 279
- 第11章 管理Hadoop 314
- 第Ⅳ部分 Hadoop相关开源项目
- 第12章 关于Avro 341
- 第13章 关于Parquet 363
- 第14章 关于Flume 377
- 第15章 关于Sqoop 398
- 第16章 关于Pig 420
- 第17章 关于Hive 469
- 第18章 关于Crunch 517
- 第19章 关于Spark 548
- 第20章 关于HBase 575
- 第21章 关于ZooKeeper 604
- 第Ⅴ部分 案例学习
- 第22章 医疗公司塞纳(Cerner)
- 第23章 生物数据科学:
- 第24章 开源项目Cascading 674