当前位置:主页 > 计算机电子书 > 数据库 > Hadoop下载
Hadoop实战手册

Hadoop实战手册 PDF 高清完整版

  • 更新:2021-06-23
  • 大小:37.96MB
  • 类别:Hadoop
  • 作者:Jonathan、R.、Owens
  • 出版:人民邮电出版社
  • 格式:PDF

  • 资源介绍
  • 相关推荐

这是一本Hadoop实用手册,主要针对实际问题给出相应的解决方案。《Hadoop实战手册》特色是以实践结合理论分析,手把手教读者如何操作,并且对每个操作都做详细的解释,对一些重要的知识点也做了必要的拓展。全书共包括3个部分,第一部分为基础篇,主要介绍Hadoop数据导入导出、HDFS的概述、Pig与Hive的使用、ETL和简单的数据处理,还介绍了MapReduce的调试方式;第二部分为数据分析高级篇,主要介绍高级聚合、大数据分析等技巧;第三部分为系统管理篇,主要介绍Hadoop的部署的各种模式、添加新节点、退役节点、快速恢复、MapReduce调优等。《Hadoop实战手册》适合各个层次的Hadoop技术人员阅读。通过阅读《Hadoop实战手册》,Hadoop初学者可以使用Hadoop来进行数据处理,Hadoop工程师或者数据挖掘工程师可以解决复杂的业务分析,Hadoop系统管理员可以更好地进行日常运维。《Hadoop实战手册》也可作为一本Hadoop技术手册,针对要解决的相关问题,在工作中随时查阅。

目录

  • 第1章Hadoop分布式文件系统——导入和导出数据1
  • 1.1介绍1
  • 1.2使用Hadoop shell命令导入和导出数据到HDFS2
  • 1.3使用distcp实现集群间数据复制7
  • 1.4使用Sqoop从MySQL数据库导入数据到HDFS9
  • 1.5使用Sqoop从HDFS导出数据到MySQL12
  • 1.6配置Sqoop以支持SQL Server15
  • 1.7从HDFS导出数据到MongoDB17
  • 1.8从MongoDB导入数据到HDFS20
  • 1.9使用Pig从HDFS导出数据到MongoDB23
  • 1.10在Greenplum外部表中使用HDFS24
  • 1.11利用Flume加载数据到HDFS中26
  • 第2章HDFS28
  • 2.1介绍28
  • 2.2读写HDFS数据29
  • 2.3使用LZO压缩数据31
  • 2.4读写序列化文件数据34
  • 2.5使用Avro序列化数据37
  • 2.6使用Thrift序列化数据41
  • 2.7使用Protocol Buffers序列化数据44
  • 2.8设置HDFS备份因子48
  • 2.9设置HDFS块大小49
  • 第3章抽取和转换数据51
  • 3.1介绍51
  • 3.2使用MapReduce将Apache日志转换为TSV格式52
  • 3.3使用Apache Pig过滤网络服务器日志中的爬虫访问量54
  • 3.4使用Apache Pig根据时间戳对网络服务器日志数据排序57
  • 3.5使用Apache Pig对网络服务器日志进行会话分析59
  • 3.6通过Python扩展Apache Pig的功能61
  • 3.7使用MapReduce及二次排序计算页面访问量62
  • 3.8使用Hive和Python清洗、转换地理事件数据67
  • 3.9使用Python和Hadoop Streaming执行时间序列分析71
  • 3.10在MapReduce中利用MultipleOutputs输出多个文件75
  • 3.11创建用户自定义的Hadoop Writable及InputFormat读取地理事件数据78
  • 第4章使用Hive、Pig和MapReduce处理常见的任务85
  • 4.1介绍85
  • 4.2使用Hive将HDFS中的网络日志数据映射为外部表86
  • 4.3使用Hive动态地为网络日志查询结果创建Hive表87
  • 4.4利用Hive字符串UDF拼接网络日志数据的各个字段89
  • 4.5使用Hive截取网络日志的IP字段并确定其对应的国家92
  • 4.6使用MapReduce对新闻档案数据生成n-gram94
  • 4.7通过MapReduce使用分布式缓存查找新闻档案数据中包含关键词的行98
  • 4.8使用Pig加载一个表并执行包含GROUP BY的SELECT操作102
  • 第5章高级连接操作104
  • 5.1介绍104
  • 5.2使用MapReduce对数据进行连接104
  • 5.3使用Apache Pig对数据进行复制连接108
  • 5.4使用Apache Pig对有序数据进行归并连接110
  • 5.5使用Apache Pig对倾斜数据进行倾斜连接111
  • 5.6在Apache Hive中通过map端连接对地理事件进行分析113
  • 5.7在Apache Hive通过优化的全外连接分析地理事件数据115
  • 5.8使用外部键值存储(Redis)连接数据118
  • 第6章大数据分析123
  • 6.1介绍123
  • 6.2使用MapReduce和Combiner统计网络日志数据集中的独立IP数124
  • 6.3运用Hive日期UDF对地理事件数据集中的时间日期进行转换与排序129
  • 6.4使用Hive创建基于地理事件数据的每月死亡报告131
  • 6.5实现Hive用户自定义UDF用于确认地理事件数据的来源可靠性133
  • 6.6使用Hive的map/reduce操作以及Python标记最长的无暴力发生的时间区间136
  • 6.7使用Pig计算Audioscrobbler数据集中艺术家之间的余弦相似度141
  • 6.8使用Pig以及datafu剔除Audioscrobbler数据集中的离群值145
  • 第7章高级大数据分析147
  • 7.1介绍147
  • 7.2使用Apache Giraph计算PageRank147
  • 7.3使用Apache Giraph计算单源最短路径150
  • 7.4使用Apache Giraph执行分布式宽度优先搜索158
  • 7.5使用Apache Mahout计算协同过滤165
  • 7.6使用Apache Mahout进行聚类168
  • 7.7使用Apache Mahout进行情感分类171
  • 第8章调试174
  • 8.1介绍174
  • 8.2在MapReduce中使用Counters监测异常记录174
  • 8.3使用MRUnit开发和测试MapReduce177
  • 8.4本地模式下开发和测试MapReduce179
  • 8.5运行MapReduce作业跳过异常记录182
  • 8.6在流计算作业中使用Counters184
  • 8.7更改任务状态显示调试信息185
  • 8.8使用illustrate调试Pig作业187
  • 第9章系统管理189
  • 9.1介绍189
  • 9.2在伪分布模式下启动Hadoop189
  • 9.3在分布式模式下启动Hadoop192
  • 9.4添加一个新节点195
  • 9.5节点安全退役197
  • 9.6NameNode故障恢复198
  • 9.7使用Ganglia监控集群199
  • 9.8MapReduce作业参数调优201
  • 第10章使用Apache Accumulo进行持久化204
  • 10.1介绍204
  • 10.2在Accumulo中设计行键存储地理事件205
  • 10.3使用MapReduce批量导入地理事件数据到Accumulo213
  • 10.4设置自定义字段约束Accumulo中的地理事件数据220
  • 10.5使用正则过滤器限制查询结果225
  • 10.6使用SumCombiner计算同一个键的不同版本的死亡数总和228
  • 10.7使用Accumulo实行单元级安全的扫描232
  • 10.8使用MapReduce聚集Accumulo中的消息源237
  •  
  • 特别提示:本资源需要会员组权限,普通注册用户无法下载.

资源下载

资源下载地址1:https://pan.baidu.com/s/1SHobW8KFgtnFLznvWnPaSQ

相关资源

网友留言