做为大数据最前沿的兴新行业,市面大数据安全与治理的有关书藉寥寥无几。这书在介绍大数据学界最新消息与大数据制造行业生活实践的另外,对大数据安全与治理的新理论与实践内容做了详细的论述。这书分成两一部分:第壹篇(理论篇),介绍大数据治理与安全性的理论、方式 和技术性挑戰等;第二篇(开源系统保持篇),介绍开源社区各种开源网站项目,将科学研究与实践活动的內容依据不一样部件归类。
目录
- 前 言
- 第一篇 理论篇
- 第1章 大数据治理技术2
- 1.1 概述2
- 1.1.1 大数据治理的基本概念2
- 1.1.2 大数据治理的意义和重要作用5
- 1.2 框架7
- 1.2.1 大数据治理框架概述7
- 1.2.2 大数据治理的原则9
- 1.2.3 大数据治理的范围11
- 1.2.4 大数据治理的实施与评估14
- 第2章 大数据安全、隐私保护和审计技术19
- 2.1 大数据安全19
- 2.1.1 大数据安全的意义和重要作用19
- 2.1.2 大数据安全面临的问题与挑战21
- 2.1.3 大数据安全防护技术23
- 2.2 大数据隐私保护26
- 2.2.1 大数据隐私保护的意义和重要作用26
- 2.2.2 大数据隐私保护面临的问题与挑战28
- 2.2.3 大数据隐私保护技术31
- 2.3 大数据治理审计34
- 2.3.1 大数据治理审计概述34
- 2.3.2 大数据治理审计内容37
- 2.3.3 大数据治理审计方法和技术39
- 2.3.4 大数据治理审计流程43
- 第二篇 开源实现篇
- 第3章 大数据治理之Apache Falcon48
- 3.1 Apache Falcon概述48
- 3.1.1 Apache Falcon技术概况49
- 3.1.2 Apache Falcon发展近况50
- 3.1.3 Apache Falcon技术优势50
- 3.1.4 Apache Falcon架构51
- 3.2 Apache Falcon的使用53
- 3.2.1 Oozie的安装与配置56
- 3.2.2 Falcon的安装与配置61
- 3.2.3 实体XML的创建与声明63
- 3.3 Apache Falcon场景设计与实现74
- 3.3.1 数据管道74
- 3.3.2 结构化数据导入分布式文件系统82
- 3.3.3 结构化数据库与数据仓库的交互89
- 3.3.4 跨集群数据传输104
- 3.3.5 数据镜像109
- 3.3.6 数据仓库中的数据操作113
- 3.4 Apache Falcon优化与性能分析118
- 3.4.1 Apache Falcon控制流118
- 3.4.2 分布式部署119
- 3.4.3 安全模式120
- 3.4.4 Apache Falcon优化122
- 3.5 Apache Falcon应用举例123
- 3.5.1 InMobi基于Falcon的数据治理123
- 3.5.2 Expedia基于Falcon的数据治理125
- 3.6 本章小结126
- 第4章 大数据治理之Apache Atlas127
- 4.1 Apache Atlas概述127
- 4.1.1 Apache Atlas技术概况127
- 4.1.2 Apache Atlas发展近况130
- 4.1.3 Apache Atlas技术优势133
- 4.1.4 Apache Atlas架构136
- 4.2 Apache Atlas的配置与使用143
- 4.2.1 安装配置Apache Atlas143
- 4.2.2 添加或修改Atlas Web UI的登录账户158
- 4.2.3 配置Hive通过Hive HOOK导入数据159
- 4.2.4 配置Sqoop通过Sqoop HOOK导入数据163
- 4.2.5 配置Storm通过Storm HOOK导入数据167
- 4.2.6 配置Falcon通过Falcon HOOK导入数据173
- 4.3 Apache Atlas的场景设计176
- 4.3.1 Atlas总场景介绍176
- 4.3.2 Atlas非实时数据场景178
- 4.3.3 Atlas实时数据场景183
- 4.3.4 Hive数据表操作183
- 4.4 Apache Atlas优化与性能分析190
- 4.5 本章小结193
- 第5章 大数据安全之Apache Ranger194
- 5.1 Apache Ranger概述194
- 5.1.1 Ranger技术概况194
- 5.1.2 Ranger发展史及近况196
- 5.1.3 Ranger的特点和作用197
- 5.1.4 Ranger架构199
- 5.1.5 Ranger应用场景200
- 5.2 Apache Ranger的安全认证配置201
- 5.2.1 Ranger安装与部署201
- 5.2.2 安全及访问权限控制机制206
- 5.2.3 Ranger集成HDFS的安全认证机制与配置208
- 5.2.4 Ranger集成YARN的安全认证机制与配置213
- 5.2.5 Ranger集成Hive的安全认证机制与配置217
- 5.2.6 Ranger集成HBase的安全认证机制与配置221
- 5.2.7 Ranger集成Kafka的安全认证机制与配置228
- 5.2.8 Ranger集成Atlas的安全认证机制与配置235
- 5.2.9 Ranger集成Storm的安全认证机制与配置238
- 5.2.10 Ranger集成Solr的安全认证机制与配置246
- 5.3 Apache Ranger的功能配置254
- 5.3.1 Tag同步验证254
- 5.3.2 各类Policy验证255
- 5.4 Apache Ranger优化与性能分析262
- 5.5 本章小结263
- 第6章 大数据安全之Apache Sentry265
- 6.1 Apache Sentry 概述265
- 6.1.1 Apache Sentry技术概况265
- 6.1.2 Apache Sentry发展近况267
- 6.1.3 Apache Sentry技术优势269
- 6.1.4 Apache Sentry架构272
- 6.2 Apache Sentry的安装与配置274
- 6.2.1 先决条件274
- 6.2.2 Impala的安装与调试274
- 6.2.3 Apache Sentry的安装和配置282
- 6.2.4 Apache Sentry与Impala的集成286
- 6.3 Apache Sentry场景设计之Sentry对Impala的控制288
- 6.3.1 场景数据准备288
- 6.3.2 基于文件存储元数据的场景验证288
- 6.3.3 基于数据库存储元数据的场景验证292
- 6.4 Apache Sentry场景设计之Sentry对Hive的控制296
- 6.4.1 Hive与Sentry的集成配置296
- 6.4.2 准备实验数据298
- 6.4.3 基于文件存储方式的数据表操作298
- 6.4.4 基于数据库存储方式的数据表操作301
- 6.5 本章小结305
- 第7章 大数据安全之Kerberos认证306
- 7.1 Kerberos概述306
- 7.1.1 Kerberos技术概况306
- 7.1.2 Kerberos发展史及近况307
- 7.1.3 Kerberos架构308
- 7.1.4 Kerberos的认证流程309
- 7.1.5 Kerberos的风险与缺陷311
- 7.1.6 Kerberos应用举例312
- 7.2 Kerberos使用操作说明314
- 7.2.1 名词解释314
- 7.2.2 KDC