《企业数据湖》是一本内容丰富、论述透彻的关于大数据和企业数据湖的著作。书中分为三个主要部分,第一部分介绍了数据湖的概念及其在企业中的重要性,同时还介绍了Lambda架构的新进展,展示了其在数据湖中的应用。第二部分则深入研究了使用Lambda架构构建数据湖所需的主要组件,涵盖了一些流行的大数据技术。本书以清晰易懂的语言解释了复杂的概念,同时提供了实际案例与实用技巧,使读者能够深入了解数据湖的实际应用,并在企业中实施。对于对大数据和企业数据湖感兴趣的读者来说,这本书是一本不可多得的宝贵资源。
企业数据湖
内容介绍
本书分为三个主要部分。*部分介绍了数据湖的概念、企业中数据湖泊的重要性,以及Lambda架构的*新进展。第二部分将深入研究使用Lambda架构构建数据湖的主要组件,介绍了一些流行的大数据技术,如Apache Hadoop、Spark、Sqoop、Flume和弹性搜索。第三部分以实际操作的方式展示如何实现一个企业数据湖,并介绍了几个实际的用例,而且展示了如何将其他外围组件添加到湖中以提高效率。在本书的*后,读者将能够选择正确的大数据技术,使用lambda架构模式来构建企业数据湖。
通过阅读本书,你将:
·使用大数据技术构建企业级数据湖。
·掌握Lambda架构的精髓,以及如何在企业内使用它。
·学习与Apache Sqoop及其功能相关的技术细节。
·Kafka与Hadoop组件集成,用于获取企业数据。
·使用Flume进行流式数据处理。
·理解Flink与流式数据处理的关系。
·Hadoop生态圈组件的协同使用,以及它们能带来的好处。
·使用Elastic Stack构建快速、流式、高吞吐应用。
·确保数据摄取处理在不同数据格式配置时的一致性。
目录
- 译者序
- 推荐序
- 关于作者
- 关于技术审核人员
- 前言
- 第一部分 概述
- 第1章 数据导论 2
- 第2章 数据湖概念概览 18
- 第3章 Lambda架构:一种数据湖
- 实现模式 36
- 第4章 数据湖中的Lambda应用 51
- 第二部分 数据湖的技术组件
- 第5章 基于Apache Sqoop的批量数据获取 68
- 第6章 基于Apache Flume的流式数据获取 108