这是一本Hadoop实用手册,主要针对实际问题给出相应的解决方案。《Hadoop实战手册》特色是以实践结合理论分析,手把手教读者如何操作,并且对每个操作都做详细的解释,对一些重要的知识点也做了必要的拓展。全书共包括3个部分,第一部分为基础篇,主要介绍Hadoop数据导入导出、HDFS的概述、Pig与Hive的使用、ETL和简单的数据处理,还介绍了MapReduce的调试方式;第二部分为数据分析高级篇,主要介绍高级聚合、大数据分析等技巧;第三部分为系统管理篇,主要介绍Hadoop的部署的各种模式、添加新节点、退役节点、快速恢复、MapReduce调优等。《Hadoop实战手册》适合各个层次的Hadoop技术人员阅读。通过阅读《Hadoop实战手册》,Hadoop初学者可以使用Hadoop来进行数据处理,Hadoop工程师或者数据挖掘工程师可以解决复杂的业务分析,Hadoop系统管理员可以更好地进行日常运维。《Hadoop实战手册》也可作为一本Hadoop技术手册,针对要解决的相关问题,在工作中随时查阅。
目录
- 第1章Hadoop分布式文件系统——导入和导出数据1
- 1.1介绍1
- 1.2使用Hadoop shell命令导入和导出数据到HDFS2
- 1.3使用distcp实现集群间数据复制7
- 1.4使用Sqoop从MySQL数据库导入数据到HDFS9
- 1.5使用Sqoop从HDFS导出数据到MySQL12
- 1.6配置Sqoop以支持SQL Server15
- 1.7从HDFS导出数据到MongoDB17
- 1.8从MongoDB导入数据到HDFS20
- 1.9使用Pig从HDFS导出数据到MongoDB23
- 1.10在Greenplum外部表中使用HDFS24
- 1.11利用Flume加载数据到HDFS中26
- 第2章HDFS28
- 2.1介绍28
- 2.2读写HDFS数据29
- 2.3使用LZO压缩数据31
- 2.4读写序列化文件数据34
- 2.5使用Avro序列化数据37
- 2.6使用Thrift序列化数据41
- 2.7使用Protocol Buffers序列化数据44
- 2.8设置HDFS备份因子48
- 2.9设置HDFS块大小49
- 第3章抽取和转换数据51
- 3.1介绍51
- 3.2使用MapReduce将Apache日志转换为TSV格式52
- 3.3使用Apache Pig过滤网络服务器日志中的爬虫访问量54
- 3.4使用Apache Pig根据时间戳对网络服务器日志数据排序57
- 3.5使用Apache Pig对网络服务器日志进行会话分析59
- 3.6通过Python扩展Apache Pig的功能61
- 3.7使用MapReduce及二次排序计算页面访问量62
- 3.8使用Hive和Python清洗、转换地理事件数据67
- 3.9使用Python和Hadoop Streaming执行时间序列分析71
- 3.10在MapReduce中利用MultipleOutputs输出多个文件75
- 3.11创建用户自定义的Hadoop Writable及InputFormat读取地理事件数据78
- 第4章使用Hive、Pig和MapReduce处理常见的任务85
- 4.1介绍85
- 4.2使用Hive将HDFS中的网络日志数据映射为外部表86
- 4.3使用Hive动态地为网络日志查询结果创建Hive表87
- 4.4利用Hive字符串UDF拼接网络日志数据的各个字段89
- 4.5使用Hive截取网络日志的IP字段并确定其对应的国家92
- 4.6使用MapReduce对新闻档案数据生成n-gram94
- 4.7通过MapReduce使用分布式缓存查找新闻档案数据中包含关键词的行98
- 4.8使用Pig加载一个表并执行包含GROUP BY的SELECT操作102
- 第5章高级连接操作104
- 5.1介绍104
- 5.2使用MapReduce对数据进行连接104
- 5.3使用Apache Pig对数据进行复制连接108
- 5.4使用Apache Pig对有序数据进行归并连接110
- 5.5使用Apache Pig对倾斜数据进行倾斜连接111
- 5.6在Apache Hive中通过map端连接对地理事件进行分析113
- 5.7在Apache Hive通过优化的全外连接分析地理事件数据115
- 5.8使用外部键值存储(Redis)连接数据118
- 第6章大数据分析123
- 6.1介绍123
- 6.2使用MapReduce和Combiner统计网络日志数据集中的独立IP数124
- 6.3运用Hive日期UDF对地理事件数据集中的时间日期进行转换与排序129
- 6.4使用Hive创建基于地理事件数据的每月死亡报告131
- 6.5实现Hive用户自定义UDF用于确认地理事件数据的来源可靠性133
- 6.6使用Hive的map/reduce操作以及Python标记最长的无暴力发生的时间区间136
- 6.7使用Pig计算Audioscrobbler数据集中艺术家之间的余弦相似度141
- 6.8使用Pig以及datafu剔除Audioscrobbler数据集中的离群值145
- 第7章高级大数据分析147
- 7.1介绍147
- 7.2使用Apache Giraph计算PageRank147
- 7.3使用Apache Giraph计算单源最短路径150
- 7.4使用Apache Giraph执行分布式宽度优先搜索158
- 7.5使用Apache Mahout计算协同过滤165
- 7.6使用Apache Mahout进行聚类168
- 7.7使用Apache Mahout进行情感分类171
- 第8章调试174
- 8.1介绍174
- 8.2在MapReduce中使用Counters监测异常记录174
- 8.3使用MRUnit开发和测试MapReduce177
- 8.4本地模式下开发和测试MapReduce179
- 8.5运行MapReduce作业跳过异常记录182
- 8.6在流计算作业中使用Counters184
- 8.7更改任务状态显示调试信息185
- 8.8使用illustrate调试Pig作业187
- 第9章系统管理189
- 9.1介绍189
- 9.2在伪分布模式下启动Hadoop189
- 9.3在分布式模式下启动Hadoop192
- 9.4添加一个新节点195
- 9.5节点安全退役197
- 9.6NameNode故障恢复198
- 9.7使用Ganglia监控集群199
- 9.8MapReduce作业参数调优201
- 第10章使用Apache Accumulo进行持久化204
- 10.1介绍204
- 10.2在Accumulo中设计行键存储地理事件205
- 10.3使用MapReduce批量导入地理事件数据到Accumulo213
- 10.4设置自定义字段约束Accumulo中的地理事件数据220
- 10.5使用正则过滤器限制查询结果225
- 10.6使用SumCombiner计算同一个键的不同版本的死亡数总和228
- 10.7使用Accumulo实行单元级安全的扫描232
- 10.8使用MapReduce聚集Accumulo中的消息源237
- 特别提示:本资源需要会员组权限,普通注册用户无法下载.