Apache Kylin是一个开源系统的分布式系统剖析模块,出示Hadoop之中的SQL查寻插口及多维分析(OLAP)能力以适用集成电路工艺数据信息,最开始由eBay企业开发设计并奉献至开源社区。它能在亚秒内查寻极大的Hive表。
这书分成21章,详尽解读ApacheKylin定义、安裝、配备、布署,让读者对ApacheKylin搭建大数据分析服务平台有一个感性认识。另外,这书从运用视角,融合Dome和案例详细介绍了用于多维分析的Cube优化算法的建立、配备与提升。最终还详细介绍了Kyligence企业公布KAP大数据分析服务平台,对读者有巨大的实用价值。
这书合适云计算技术新手、大数据分析工作人员、大数据架构师等,也合适用于高等学校和培训机构有关技术专业老师学生课堂教学参照。
目录
- 第一部分 Apache Kylin基础部分
- 第1章 Apache Kylin前世今生 3
- 1.1 Apache Kylin的背景 3
- 1.2 Apache Kylin的应用场景 3
- 1.3 Apache Kylin的发展历程 4
- 第2章 Apache Kylin前奏 7
- 2.1 事实表和维表 7
- 2.2 星型模型和雪花型模型 7
- 2.2.1 星型模型 7
- 2.2.2 雪花型模型 8
- 2.2.3 星型模型示例 8
- 2.3 OLAP 9
- 2.3.1 OLAP分类 9
- 2.3.2 OLAP的基本操作 10
- 2.4 数据立方体(Data Cube) 11
- 第3章 Apache Kylin 工作原理和体系架构 12
- 3.1 Kylin工作原理 12
- 3.2 Kylin体系架构 13
- 3.3 Kylin中的核心部分:Cube构建 15
- 3.4 Kylin的SQL查询 16
- 3.5 Kylin的特性和生态圈 16
- 第4章 搭建CDH大数据平台 18
- 4.1 系统环境和安装包 19
- 4.1.1 系统环境 19
- 4.1.2 安装包的下载 20
- 4.2 准备工作:系统环境搭建 21
- 4.2.1 网络配置(CDH集群所有节点) 21
- 4.2.2 打通SSH,设置ssh无密码登录(所有节点) 21
- 4.3 正式安装CDH:准备工作 29
- 4.4 正式安装CDH5:安装配置 30
- 4.4.1 CDH5的安装配置 30
- 4.4.2 对Hive、HBase执行简单操作 39
- 第5章 使用Kylin构建企业大数据分析平台的4种部署方式 41
- 5.1 Kylin部署的架构 41
- 5.2 Kylin的四种典型部署方式 42
- 第6章 单独为Kylin部署HBase集群 44
- 第7章 部署Kylin集群环境 58
- 7.1 部署Kylin的先决条件 58
- 7.2 部署Kylin集群环境 61
- 7.3 为Kylin集群搭建负载均衡器 70
- 7.3.1 搭建Nginx环境 70
- 7.3.2 配置Nginx实现Kylin的负载均衡 73
- 第二部分 Apache Kylin 进阶部分
- 第8章 Demo案例实战 77
- 8.1 Sample Cube案例描述 77
- 8.2 Sample Cube案例实战 78
- 8.2.1 准备数据 78
- 8.2.2 构建Cube 81
- 第9章 多维分析的Cube创建实战 89
- 9.1 Cube模型 89
- 9.2 创建Cube的流程 90
- 9.2.1 步骤一:Hive中事实表,以及多张维表的处理 90
- 9.2.2 步骤二:Kylin中建立项目(Project) 95
- 9.2.3 步骤三:Kylin中建立数据源(Data Source) 95
- 9.2.4 步骤四:Kylin中建立数据模型(Model) 98
- 9.2.5 步骤五:Kylin中建立Cube 104
- 9.2.6 步骤六:Build Cube 114
- 9.2.7 步骤七:查询Cube 118
- 第10章 Build Cube的来龙去脉 120
- 10.1 流程分析 120
- 10.2 小结 134
- 第三部分 Apache Kylin 高级部分
- 第11章 Cube优化 137
- 第12章 备份Kylin的Metadata 142
- 12.1 Kylin的元数据 142
- 12.2 备份元数据 143
- 12.3 恢复元数据 146
- 第13章 使用Hive视图 147
- 13.1 使用Hive视图 147
- 13.2 使用视图实战 149
- 第14章 Kylin的垃圾清理 153
- 14.1 清理元数据 153
- 14.2 清理存储器数据 154
- 第15章 JDBC访问方式 157
- 第16章 通过RESTful访问Kylin 161
- 第17章 Kylin版本之间升级 179
- 17.1 从1.5.2升级到最新版本1.5.3 179
- 17.2 从1.5.1升级到1.5.2版本 180
- 17.3 从Kylin 1.5.2.1升级到Kylin 1.5.3实战 181
- 17.4 补充内容 187
- 第18章 大数据可视化实践 189
- 18.1 可视化工具简述 189
- 18.2 安装Kylin ODBC驱动 190
- 18.3 通过Excel访问Kylin 192
- 18.4 通过Power BI访问Kylin 194
- 18.4.1 安装配置Power BI 194
- 18.4.2 实战操作 198
- 18.5 通过Tableau访问Kylin 199
- 18.6 Kylin + Mondrian + Saiku 205
- 18.7 实战演练:通过Saiku访问Kylin 211
- 18.7.1 第一个Schema例子:myproject_pvuv_cube的演示 211
- 18.7.2 第二个Schema例子:kylin_sales_cube的演示 219
- 18.7.3 Saiku使用的一些问题 223
- 18.8 通过Apache Zepplin访问Kylin 229
- 18.9 通过Kylin的“Insight”查询 232
- 第19章 使用Streaming Table 构建准实时Cube 236
- 第20章 快速数据立方算法 251
- 20.1 快速数据立方算法概述 251
- 20.2 快速数据立方算法优点和缺点 253
- 20.3 获取Fast Cubing算法的优势 254
- 第四部分 Apache Kylin的扩展部分
- 第21章 大数据智能分析平台KAP 257
- 21.1 大数据智能分析平台KAP概述 257
- 21.2 KAP的安装部署 259