《基于Hadoop的大数据分析和处理》是由电子工业出版社出版的一本关于Hadoop方面的书籍,作者是魏祖宽,主要介绍了关于Hadoop、大数据分析、处理方面的知识内容,目前在Hadoop类书籍综合评分为:7.8分。
书籍介绍
这书根据云计算技术和互联网大数据,详细介绍大数据处理和剖析的技术性,分成两一部分。*一部分详细介绍Hadoop基本知识,內容包含:Hadoop的详细介绍和集群服务器搭建、Hadoop的各分部式系统架构图、MapReduce以及运用、Hadoop的版本号特点及超进化。其次一部分以云计算技术为主题风格,详尽阐述运用Hadoop的数据分析和解决专用工具,及其NoSQL技术性,內容包含:云计算技术和Hadoop、Amazon服务项目中的MapReduce运用、Hadoop运用下的数据分析、NoSQL、HBase。这书不单纯性地叙述基础理论和定义,只是根据目实际的专用工具和技术性(Hadoop和NoSQL),运用很多具体实例,根据具体的实际操作和运用来机构大数据处理和剖析技术性,有益于用户从工程项目运用的视角开展具体把握和运用。合适有关技术专业的本科毕业、硕士研究生和前端工程师学习培训。
目录
- 第1章 Hadoop的介绍和集群构建 2
- 1.1 Hadoop介绍 2
- 1.1.1 云计算和Hadoop 2
- 1.1.2 Hadoop的历史 4
- 1.2 Hadoop构建案例 6
- 1.2.1 欧美构建案例 6
- 1.2.2 韩国构建案例 7
- 1.3 构建Hadoop集群 8
- 1.3.1 分布式文件系统 8
- 1.3.2 构建Hadoop集群的准备事项 12
- 1.3.3 构建伪分布式 17
- 1.3.4 分布式集群(Cluster)构建 29
- 1.4 Hadoop界面 36
- 1.4.1 Hadoop分布式文件系统指令界面 36
- 1.5 总结 40
- 第2章 Hadoop分布式处理文件系统 41
- 2.1 Hadoop分布式文件系统的设计 42
- 2.2 概观Hadoop分布式文件系统的整体构造 43
- 2.3 Namenode的角色 44
- 2.3.1 元数据管理 44
- 2.3.2 元数据的安全保管——Edits和Fslmage文件及Secondary Namenode 49
- 2.3.3 Datanode管理 52
- 2.4 Datanode的角色 59
- 2.4.1 block管理 59
- 2.4.2 数据的复制和过程 61
- 2.4.3 Datanode添加 63
- 2.5 总结 65
- 第3章 大数据和MapReduce 67
- 3.1 大数据的概要 68
- 3.1.1 大数据的概念 69
- 3.1.2 大数据的价值创造 69
- 3.2 MapReduce 71
- 3.2.1 MapReduce 示例:词频统计(Word Count) 71
- 3.2.2 MapReduce开源代码:词频统计(Word Count)——Java基础 75
- 3.2.3 MapReduce 开源代码:词频统计(Word Count)——Ruby语言基础 76
- 3.3 MapReduce的结构 78
- 3.3.1 通过案例了解MapReduce结构 79
- 3.3.2 从结构性角度进行的MapReduce最优化方案 81
- 3.4 MapReduce的容错性(Fault Tolerance) 85
- 3.5 MapReduce的编程 86
- 3.5.1 搜索 86
- 3.5.2 排序 87
- 3.5.3 倒排索引 87
- 3.5.4 查找热门词 88
- 3.5.5 合算数字 89
- 3.6 构建Hadoop:通过MapReduce的案例介绍 90
- 3.6.1 单词频率统计MapReduce的编程 91
- 3.6.2 MapReduce—用户界面 95
- 3.7 总结 99
- 第4章 Hadoop版本特征及进化 101
- 4.1 Hadoop 0.1x版本的API 103
- 4.2 Hadoop附加功能(append) 107
- 4.3 Hadoop安全相关功能 109
- 4.4 Hadoop 2.0.0 alpha 111
- 4.4.1 安装Hadoop 2.0.0 112
- 4.4.2 Hadoop分布式文件系统的更改 120
- 4.4.3 跨时代MapReduce框架:YARN 128
- 4.5 总结 135
- 第5章 云计算和Hadoop 137
- 5.1 大规模Hadoop集群的构建和案例 138
- 5.2 云基础设施服务的登场 139
- 5.2.1 Amazon云服务 141
- 5.3 在Amazon EC2中构建Hadoop集群 156
- 5.3.1 Apache Whirr 156
- 5.3.2 构建Hadoop 集群 157
- 5.4 总结 160
- 第6章 Amazon Elastic MapReduce的倍增利用 161
- 6.1 Amazon EMR的活用 162
- 6.1.1 Amazon EMR的概念 162
- 6.1.2 Amazon EMR的构造 162
- 6.1.3 Amazon EMR的特征 163
- 6.1.4 Amazon EMR的 Job Flow和Step 164
- 6.1.5 使用Amazon EMR前需要了解的事项 165
- 6.1.6 Amazon EMR的实战运用 170
- 6.2 总结 178
- 第7章 Hadoop应用下的大数据分析 179
- 7.1 Hadoop应用下的机器学习(Mahout) 180
- 7.1.1 设置及编译 181
- 7.1.2 K-means 聚类算法 183
- 7.1.3 基于矢量相似度的协同过滤 188
- 7.1.4 小结 194
- 7.2 基于Hadoop的统计分析Rhive(R and Hive) 195
- 7.2.1 R的设置及灵活运用 195
- 7.2.2 Hive的设置及灵活运用 198
- 7.2.3 RHive的设置及灵活运用 201
- 7.2.4 小结 207
- 7.3 利用Hadoop的图形数据处理Giraph 207
- 7.4 总结 216
- 第8章 数据中的DBMS,NoSQL 217
- 8.1 NoSQL出现背景:大数据和Web 2.0 218
- 8.1.1 基于Web 2.0的大数据的登场 218
- 8.1.2 基于大数据的NoSQL的登场 221
- 8.1.3 适合大数据和Web 2.0的数据库NoSQL 222
- 8.2 NoSQL的定义和类别特征 226
- 8.3 NoSQL数据模型概要和分类 229
- 8.4 NoSQL数据模型化 231
- 8.4.1 NoSQL数据模型化基本概念 232
- 8.4.2 一般的NoSQL建模方法 234
- 8.5 主要NoSQL的比较和选择 239
- 8.6 总结 241
- 第9章 Hbase:Hadoop中的NoSQL 243
- 9.1 Hadoop生态界中的HBase 244
- 9.2 HBase介绍 248
- 9.3 HBase数据模型 250
- 9.3.1 map 250
- 9.3.2 持续性(persistent) 250
- 9.3.3 分布性(distributed) 250
- 9.3.4 排序性(sorted) 250
- 9.3.5 多维性(multidimensional) 251
- 9.3.6 稀疏性(sparse) 254
- 9.4 HBase的数据库模式 255
- 9.5 HBase构造 259
- 9.6 HBase的构建及运行 261
- 9.7 HBase的扩展——DuoBase中的HBase 264
- 9.8 HBase的用户定义索引 266
- 9.8.1 HBase用户定义索引—HFile格式的扩展 267
- 9.8.2 HBase用户定义索引—Region的扩展 267
- 9.9 总结 270