当前位置：主页 > 计算机电子书 > 数据库 > Hadoop电子书下载

Hadoop实战手册

Hadoop实战手册

更新：2021-06-23
大小：37.96MB
类别：Hadoop
作者：Jonathan、R.、Owens
出版：人民邮电出版社
版本：PDF 高清完整版

高速下载(提取码：fnhx)

资源介绍
相关推荐

这是一本Hadoop实用手册，主要针对实际问题给出相应的解决方案。《Hadoop实战手册》特色是以实践结合理论分析，手把手教读者如何操作，并且对每个操作都做详细的解释，对一些重要的知识点也做了必要的拓展。全书共包括3个部分，第一部分为基础篇，主要介绍Hadoop数据导入导出、HDFS的概述、Pig与Hive的使用、ETL和简单的数据处理，还介绍了MapReduce的调试方式；第二部分为数据分析高级篇，主要介绍高级聚合、大数据分析等技巧；第三部分为系统管理篇，主要介绍Hadoop的部署的各种模式、添加新节点、退役节点、快速恢复、MapReduce调优等。《Hadoop实战手册》适合各个层次的Hadoop技术人员阅读。通过阅读《Hadoop实战手册》，Hadoop初学者可以使用Hadoop来进行数据处理，Hadoop工程师或者数据挖掘工程师可以解决复杂的业务分析，Hadoop系统管理员可以更好地进行日常运维。《Hadoop实战手册》也可作为一本Hadoop技术手册，针对要解决的相关问题，在工作中随时查阅。

目录

第1章Hadoop分布式文件系统——导入和导出数据1
1．1介绍1
1．2使用Hadoop shell命令导入和导出数据到HDFS2
1．3使用distcp实现集群间数据复制7
1．4使用Sqoop从MySQL数据库导入数据到HDFS9
1．5使用Sqoop从HDFS导出数据到MySQL12
1．6配置Sqoop以支持SQL Server15
1．7从HDFS导出数据到MongoDB17
1．8从MongoDB导入数据到HDFS20
1．9使用Pig从HDFS导出数据到MongoDB23
1．10在Greenplum外部表中使用HDFS24
1．11利用Flume加载数据到HDFS中26
第2章HDFS28
2．1介绍28
2．2读写HDFS数据29
2．3使用LZO压缩数据31
2．4读写序列化文件数据34
2．5使用Avro序列化数据37
2．6使用Thrift序列化数据41
2．7使用Protocol Buffers序列化数据44
2．8设置HDFS备份因子48
2．9设置HDFS块大小49
第3章抽取和转换数据51
3．1介绍51
3．2使用MapReduce将Apache日志转换为TSV格式52
3．3使用Apache Pig过滤网络服务器日志中的爬虫访问量54
3．4使用Apache Pig根据时间戳对网络服务器日志数据排序57
3．5使用Apache Pig对网络服务器日志进行会话分析59
3．6通过Python扩展Apache Pig的功能61
3．7使用MapReduce及二次排序计算页面访问量62
3．8使用Hive和Python清洗、转换地理事件数据67
3．9使用Python和Hadoop Streaming执行时间序列分析71
3．10在MapReduce中利用MultipleOutputs输出多个文件75
3．11创建用户自定义的Hadoop Writable及InputFormat读取地理事件数据78
第4章使用Hive、Pig和MapReduce处理常见的任务85
4．1介绍85
4．2使用Hive将HDFS中的网络日志数据映射为外部表86
4．3使用Hive动态地为网络日志查询结果创建Hive表87
4．4利用Hive字符串UDF拼接网络日志数据的各个字段89
4．5使用Hive截取网络日志的IP字段并确定其对应的国家92
4．6使用MapReduce对新闻档案数据生成n-gram94
4．7通过MapReduce使用分布式缓存查找新闻档案数据中包含关键词的行98
4．8使用Pig加载一个表并执行包含GROUP BY的SELECT操作102
第5章高级连接操作104
5．1介绍104
5．2使用MapReduce对数据进行连接104
5．3使用Apache Pig对数据进行复制连接108
5．4使用Apache Pig对有序数据进行归并连接110
5．5使用Apache Pig对倾斜数据进行倾斜连接111
5．6在Apache Hive中通过map端连接对地理事件进行分析113
5．7在Apache Hive通过优化的全外连接分析地理事件数据115
5．8使用外部键值存储(Redis)连接数据118
第6章大数据分析123
6．1介绍123
6．2使用MapReduce和Combiner统计网络日志数据集中的独立IP数124
6．3运用Hive日期UDF对地理事件数据集中的时间日期进行转换与排序129
6．4使用Hive创建基于地理事件数据的每月死亡报告131
6．5实现Hive用户自定义UDF用于确认地理事件数据的来源可靠性133
6．6使用Hive的map/reduce操作以及Python标记最长的无暴力发生的时间区间136
6．7使用Pig计算Audioscrobbler数据集中艺术家之间的余弦相似度141
6．8使用Pig以及datafu剔除Audioscrobbler数据集中的离群值145
第7章高级大数据分析147
7．1介绍147
7．2使用Apache Giraph计算PageRank147
7．3使用Apache Giraph计算单源最短路径150
7．4使用Apache Giraph执行分布式宽度优先搜索158
7．5使用Apache Mahout计算协同过滤165
7．6使用Apache Mahout进行聚类168
7．7使用Apache Mahout进行情感分类171
第8章调试174
8．1介绍174
8．2在MapReduce中使用Counters监测异常记录174
8．3使用MRUnit开发和测试MapReduce177
8．4本地模式下开发和测试MapReduce179
8．5运行MapReduce作业跳过异常记录182
8．6在流计算作业中使用Counters184
8．7更改任务状态显示调试信息185
8．8使用illustrate调试Pig作业187
第9章系统管理189
9．1介绍189
9．2在伪分布模式下启动Hadoop189
9．3在分布式模式下启动Hadoop192
9．4添加一个新节点195
9．5节点安全退役197
9．6NameNode故障恢复198
9．7使用Ganglia监控集群199
9．8MapReduce作业参数调优201
第10章使用Apache Accumulo进行持久化204
10．1介绍204
10．2在Accumulo中设计行键存储地理事件205
10．3使用MapReduce批量导入地理事件数据到Accumulo213
10．4设置自定义字段约束Accumulo中的地理事件数据220
10．5使用正则过滤器限制查询结果225
10．6使用SumCombiner计算同一个键的不同版本的死亡数总和228
10．7使用Accumulo实行单元级安全的扫描232
10．8使用MapReduce聚集Accumulo中的消息源237
特别提示：本资源需要会员组权限，普通注册用户无法下载.

资源获取

高速下载(提取码：fnhx)

相关资源

网友留言

最近更新

05-29Python视觉实战项目31讲
05-29Go语言面试八股文大全
05-29MySQL 8.4中文手册
05-29华为OD机考100题(真题)
05-29Python+OpenCV入门计算机视觉实战项目52讲 v1.0
05-21Modbus协议
05-21PCIE规范合集(PCI_Express_Base 1.0/2.1/3.0/4.0/5.0/6.0)
05-21深入理解Rust并发编程

热门资源

精选留言