《Hadoop大数据平台构建与应用》是一本全面介绍Hadoop生态系统的书籍,它详细阐述了Hadoop的核心组件如HDFS、MapReduce、YARN以及其他相关技术如Hive、HBase和Sqoop的工作原理和应用方法,作者通过实际案例,展示了如何在实际项目中有效地利用Hadoop处理大规模数据集,书中不仅解释了每项技术的内部机制,还讨论了它们在数据存储、处理和分析中的实际应用,使读者能够理解并掌握构建高效、可扩展的大数据解决方案的方法,此外,本书还探讨了大数据生态系统中的最新发展,包括对Spark等新兴技术的介绍,为读者提供了一个关于Hadoop及其生态系统最新进展的全面视角。
Hadoop大数据平台构建与应用
内容总结
Variety 多种多样的
数据的类型多种多样,比如数据来源多样,企业内部的日志,互联网和物联网等,数据的类型多样,有结构化数据,有非结构化数据,如视频,文档,音频,有的数据关联性不大,有的数据的关联性是非常强,比如一个游客在旅游的过程中,上传的图片和游客和位置和行程是有非常大的关联性。(你也一定有这样的经历:当你做火车的时候,总是收到一些短信,不管是垃圾的还是不是垃圾的,这是根据数据的实时分析)。
Velocity 速度快
在大数据诞生之初,很多的情况下,都是基于日志来做批处理分析的,也就是刚开始的时候使用Hive来进行处理,随着业务的增长和需求,批处理也无法满足需求,后来就诞生了流处理系统,比如著名的Spark,这些框架的处理速度更快,实时性更快,透明度也更高。
举一个例子,在北京雾霾天,电商网站会根据天气来推荐商品,比如口罩。这个要求实时性要好,假如今天晚上,雾霾都散去了,但是你的数据是离线处理的,也就是晚上处理的,明天推荐也不会带来商业价值。
Value 数据价值
这是一个沙里淘金的过程。从海量的数据里挖掘有用的珍贵的信息,难度是不小的。而且随着数据量的增大,变的越来越难的。可以引入一个概念,价值密度越来越低
内容介绍
《Hadoop大数据平台构建与应用(云计算技术与应用专业校企合作系列教材)》以“高职院校学情分析”系统为项目原型,以任务驱动为主线,基于Hadoop大数据平台,讲解大数据平台的搭建与运维、大数据的采集与存储、大数据的处理、数据的分析、数据的可视化等完整的大数据应用案例,全面详细地讲述Hadoop、MapReduee、HDFS、Hive和Sqoop等技术的相关知识,并详细讨论了Mahout大数据分析中的常用算法——K—means聚类算法、Canopy聚类算法、欧氏距离算法、余弦距离算法、皮尔逊相关系数算法、TF—IDF加权算法等的使用及相关学情分析系统中算法的实现等。
《Hadoop大数据平台构建与应用/云计算技术与应用专业校企合作系列教材》具有较强的实用性和可操作性,语言精练,通俗易懂,操作步骤描述详尽,并配有大量操作图例。
《Hadoop大数据平台构建与应用/云计算技术与应用专业校企合作系列教材》可作为高等职业院校大数据应用专业、软件技术专业、云计算技术与应用专业的大数据分析与软件开发等相关课程的教材,也可作为从事大数据分析、云计算应用等系统开发与分析技术人员的参考用书。
目录
- 项目1 认识大数据,实现学情分析
- 系统设计与环境搭建
- 学习目标
- 学习情境
- 任务1.1 设计学情分析系统
- 任务描述
- 任务目标
- 知识准备
- 任务实施
- 项目实训
- 任务1.2 构建学情分析系统开发
- 环境
- 任务描述
- 任务目标
- 知识准备
- 任务实施
- 项目实训
- 项目小结
- 项目2 Hadoop大数据平台的构建
- 学习目标
- 学习情境
- 任务2.1 搭建Ambari Hadoop
- 系统
- 任务描述
- 任务目标
- 知识准备
- 任务实施
- 项目实训
- 任务2.2 使用Apache Ambari
- 管理Had0叩集群
- 任务描述
- 任务目标
- 知识准备
- 任务实施
- 项目买训
- 项目小结
- 项目3 就业岗位数据的采集和
- 存储
- 学习目标
- 学习情境
- 任务3.1 使用网络爬虫采集岗位
- 招聘数据
- 任务描述
- 任务目标
- 知识准备
- 任务实施
- 项目实训
- 任务3.2 将采集的数据上传到
- HDFS
- 任务描述
- 任务目标
- 知识准备
- 任务实施
- 项目实训
- 任务3.3 使用Sqoop转换MySQL
- 中的学生成绩数据到
- Hive中
- 任务描述
- 任务目标
- 知识准备
- 任务实施
- 项目实训
- 项目小结
- 项目4 岗位数据的处理
- 学习目标
- 学习情境
- 任务4.1 使用Hadoop MR对数据
- 进行清洗
- 任务描述
- 任务目标
- 知识准备
- 任务实施
- 项目实训
- 任务4.2 使用命令行对Hive进行
- 数据查询和过滤
- 任务描述
- 任务目标
- 知识准备
- 任务实施
- 项目实训
- 任务4.3 使用Java API对Hive
- 进行连接与操作
- 任务描述
- 任务目标
- 知识准备
- 任务实施
- 项目实训
- 项目小结
- 项目5 岗位和技能数据的
- 分析
- 学习目标
- 学习情境
- 任务5.1 使用Mahout命令进行
- 岗位聚类分析
- 任务描述
- 任务目标
- 知识准备
- 任务实施
- 项目实训
- 任务5.2 使用Mahout的Java API
- 进行岗位分析聚类
- 开发
- 任务描述
- 任务目标
- 知识准备
- 任务实施
- 项目实训
- 任务5.3 使用:Mahout推荐工作
- 岗位
- 任务描述
- 任务目标
- 知识准备
- 任务实施
- 项目实训
- 项目小结
- 项目6 数据的可视化
- 学习目标
- 学习情境
- 任务6.1 使用Excel可视化
- 数据
- 任务描述
- 任务目标
- 知识准备
- 任务实施
- 项目实训
- 任务6.2 使用EChaas可视化
- 数据
- 任务描述
- 任务目标
- 知识准备
- 任务实施
- 项目实训
- 任务6.3 使用D3.js可视化
- 数据
- 任务描述
- 任务目标
- 知识准备
- 任务实施
- 项目实训
- 项目小结
- 参考文献
大数据在技术架构上带来的挑战 1,对现有数据库管理技术的挑战,现阶段而言,已经无法使用结构化的存储和查询来处理大量数据。 2,经典数据库并没有考虑到数据的多类别。 3,实时性技术的挑战。数据所产生的价值会随着时间的流逝而大大降低。所以当数据产生的时候,我们应该尽可能快的对我们产生的数据进行处理。最典型的就是电商的推荐系统。 4,网络架构,数据中心,运维的挑战。每天的数据都是爆炸式增长的,如何对这些数据进行高效的收集,存储和计算呢?这些都是现如今的数据中心要面临的挑战。对于快速的增长的数据,所需要的机器也越来愈多,运维是个大挑战
大数据要涉及的技术 1,数据采集。试想一下,你的日志,分散在各个地方,如果你要进行大数据处理的话,第一步,你要做的事情就是要将各个地方的数据收集到我们的数据平台上来。我们才能做后面的数据分析和挖掘。 2,数据存储。数据存储时我们要解决的第二个问题,原来我们的数据量非常小的时候,我们存储在几个机器上就OK了,可是现在我们的存储量越来越大,我们需要要怎么样的方式去解决大量数据的存储问题呢?这个也是我们要考虑的问题 3,数据处理、分析,挖掘,我们已经将数据采集过来,并且进行了存储,接下来我们要做的事情就是,数据的处理,分析和挖掘,我们应该采取什么样子的技术来解决我们特定领域的问题呢?这里就涉及到处理框架技术选择问题。 4,可视化,我们将数据进行相关的处理之后,我们最好的方式就是通过可视化的方式将它展现出来,否则你的数据都是在后台的存储系统中,你没有办法给销售,或者领导我们数据挖掘的效果,挖掘的成果到底是什么样子的。 综上:这里所涉及到的技术,在Hadoop中都是有对应的一个或者多个解决方案,把这些框架或技术综合起来,就可以达到大数据处理平台分析处理的能力了。