当前位置:当前位置:主页 > 计算机电子书 > 数据库 > Hadoop pdf电子书
基于Hadoop的大数据分析和处理

基于Hadoop的大数据分析和处理 PDF 完整原版

  • 更新:2019-10-21
  • 大小:9.09 MB
  • 类别:Hadoop
  • 作者:魏祖宽
  • 出版:电子工业出版社
  • 格式:PDF

  • 资源介绍
  • 学习心得
  • 相关内容

基于Hadoop的大数据分析和处理》是由电子工业出版社出版的一本关于Hadoop方面的书籍,作者是魏祖宽,主要介绍了关于Hadoop、大数据分析、处理方面的知识内容,目前在Hadoop类书籍综合评分为:7.8分。

书籍介绍

基于Hadoop的大数据分析和处理 PDF

这书根据云计算技术和互联网大数据,详细介绍大数据处理和剖析的技术性,分成两一部分。*一部分详细介绍Hadoop基本知识,內容包含:Hadoop的详细介绍和集群服务器搭建、Hadoop的各分部式系统架构图、MapReduce以及运用、Hadoop的版本号特点及超进化。其次一部分以云计算技术为主题风格,详尽阐述运用Hadoop的数据分析和解决专用工具,及其NoSQL技术性,內容包含:云计算技术和Hadoop、Amazon服务项目中的MapReduce运用、Hadoop运用下的数据分析、NoSQL、HBase。这书不单纯性地叙述基础理论和定义,只是根据目实际的专用工具和技术性(Hadoop和NoSQL),运用很多具体实例,根据具体的实际操作和运用来机构大数据处理和剖析技术性,有益于用户从工程项目运用的视角开展具体把握和运用。合适有关技术专业的本科毕业、硕士研究生和前端工程师学习培训。

目录

  • 第1章 Hadoop的介绍和集群构建 2
  • 1.1 Hadoop介绍 2
  • 1.1.1 云计算和Hadoop 2
  • 1.1.2 Hadoop的历史 4
  • 1.2 Hadoop构建案例 6
  • 1.2.1 欧美构建案例 6
  • 1.2.2 韩国构建案例 7
  • 1.3 构建Hadoop集群 8
  • 1.3.1 分布式文件系统 8
  • 1.3.2 构建Hadoop集群的准备事项 12
  • 1.3.3 构建伪分布式 17
  • 1.3.4 分布式集群(Cluster)构建 29
  • 1.4 Hadoop界面 36
  • 1.4.1 Hadoop分布式文件系统指令界面 36
  • 1.5 总结 40
  • 第2章 Hadoop分布式处理文件系统 41
  • 2.1 Hadoop分布式文件系统的设计 42
  • 2.2 概观Hadoop分布式文件系统的整体构造 43
  • 2.3 Namenode的角色 44
  • 2.3.1 元数据管理 44
  • 2.3.2 元数据的安全保管——Edits和Fslmage文件及Secondary Namenode 49
  • 2.3.3 Datanode管理 52
  • 2.4 Datanode的角色 59
  • 2.4.1 block管理 59
  • 2.4.2 数据的复制和过程 61
  • 2.4.3 Datanode添加 63
  • 2.5 总结 65
  • 第3章 大数据和MapReduce 67
  • 3.1 大数据的概要 68
  • 3.1.1 大数据的概念 69
  • 3.1.2 大数据的价值创造 69
  • 3.2 MapReduce 71
  • 3.2.1 MapReduce 示例:词频统计(Word Count) 71
  • 3.2.2 MapReduce开源代码:词频统计(Word Count)——Java基础 75
  • 3.2.3 MapReduce 开源代码:词频统计(Word Count)——Ruby语言基础 76
  • 3.3 MapReduce的结构 78
  • 3.3.1 通过案例了解MapReduce结构 79
  • 3.3.2 从结构性角度进行的MapReduce最优化方案 81
  • 3.4 MapReduce的容错性(Fault Tolerance) 85
  • 3.5 MapReduce的编程 86
  • 3.5.1 搜索 86
  • 3.5.2 排序 87
  • 3.5.3 倒排索引 87
  • 3.5.4 查找热门词 88
  • 3.5.5 合算数字 89
  • 3.6 构建Hadoop:通过MapReduce的案例介绍 90
  • 3.6.1 单词频率统计MapReduce的编程 91
  • 3.6.2 MapReduce—用户界面 95
  • 3.7 总结 99
  • 第4章 Hadoop版本特征及进化 101
  • 4.1 Hadoop 0.1x版本的API 103
  • 4.2 Hadoop附加功能(append) 107
  • 4.3 Hadoop安全相关功能 109
  • 4.4 Hadoop 2.0.0 alpha 111
  • 4.4.1 安装Hadoop 2.0.0 112
  • 4.4.2 Hadoop分布式文件系统的更改 120
  • 4.4.3 跨时代MapReduce框架:YARN 128
  • 4.5 总结 135
  • 第5章 云计算和Hadoop 137
  • 5.1 大规模Hadoop集群的构建和案例 138
  • 5.2 云基础设施服务的登场 139
  • 5.2.1 Amazon云服务 141
  • 5.3 在Amazon EC2中构建Hadoop集群 156
  • 5.3.1 Apache Whirr 156
  • 5.3.2 构建Hadoop 集群 157
  • 5.4 总结 160
  • 第6章 Amazon Elastic MapReduce的倍增利用 161
  • 6.1 Amazon EMR的活用 162
  • 6.1.1 Amazon EMR的概念 162
  • 6.1.2 Amazon EMR的构造 162
  • 6.1.3 Amazon EMR的特征 163
  • 6.1.4 Amazon EMR的 Job Flow和Step 164
  • 6.1.5 使用Amazon EMR前需要了解的事项 165
  • 6.1.6 Amazon EMR的实战运用 170
  • 6.2 总结 178
  • 第7章 Hadoop应用下的大数据分析 179
  • 7.1 Hadoop应用下的机器学习(Mahout) 180
  • 7.1.1 设置及编译 181
  • 7.1.2 K-means 聚类算法 183
  • 7.1.3 基于矢量相似度的协同过滤 188
  • 7.1.4 小结 194
  • 7.2 基于Hadoop的统计分析Rhive(R and Hive) 195
  • 7.2.1 R的设置及灵活运用 195
  • 7.2.2 Hive的设置及灵活运用 198
  • 7.2.3 RHive的设置及灵活运用 201
  • 7.2.4 小结 207
  • 7.3 利用Hadoop的图形数据处理Giraph 207
  • 7.4 总结 216
  • 第8章 数据中的DBMS,NoSQL 217
  • 8.1 NoSQL出现背景:大数据和Web 2.0 218
  • 8.1.1 基于Web 2.0的大数据的登场 218
  • 8.1.2 基于大数据的NoSQL的登场 221
  • 8.1.3 适合大数据和Web 2.0的数据库NoSQL 222
  • 8.2 NoSQL的定义和类别特征 226
  • 8.3 NoSQL数据模型概要和分类 229
  • 8.4 NoSQL数据模型化 231
  • 8.4.1 NoSQL数据模型化基本概念 232
  • 8.4.2 一般的NoSQL建模方法 234
  • 8.5 主要NoSQL的比较和选择 239
  • 8.6 总结 241
  • 第9章 Hbase:Hadoop中的NoSQL 243
  • 9.1 Hadoop生态界中的HBase 244
  • 9.2 HBase介绍 248
  • 9.3 HBase数据模型 250
  • 9.3.1 map 250
  • 9.3.2 持续性(persistent) 250
  • 9.3.3 分布性(distributed) 250
  • 9.3.4 排序性(sorted) 250
  • 9.3.5 多维性(multidimensional) 251
  • 9.3.6 稀疏性(sparse) 254
  • 9.4 HBase的数据库模式 255
  • 9.5 HBase构造 259
  • 9.6 HBase的构建及运行 261
  • 9.7 HBase的扩展——DuoBase中的HBase 264
  • 9.8 HBase的用户定义索引 266
  • 9.8.1 HBase用户定义索引—HFile格式的扩展 267
  • 9.8.2 HBase用户定义索引—Region的扩展 267
  • 9.9 总结 270

资源获取

相关资源

网友留言