《HAWQ数据仓库与数据挖掘实战》是一本深入探讨HAWQ数据仓库和数据挖掘的实用指南。本书不仅详细介绍了HAWQ作为一个SQL-on-Hadoop的产品的基本概念和原理,还提供了丰富的实战案例和演练,使读者能够在Hadoop平台上快速构建高效的数据仓库系统。与此本书还重点强调了数据挖掘的应用,通过实例和技巧的分享,帮助读者了解数据挖掘的各种方法和工具,从而更好地应用于实际项目中。这本书为读者提供了一站式的学习和实践平台,值得您下载阅读。
读者评价
HAWQ安装、连接、对象与资源管理、查询优化、备份恢复、高可用性、运维监控ETL处理、自动调度系统、维度表与事实表技术、OLAP与数据的图形化表示降维、协同过滤、关联规则、回归、聚类、分类等常见数据挖掘与机器学习方法
内容介绍
Apache HAWQ是一个SQL-on-Hadoop产品,它非常适合用于Hadoop平台上快速构建数据仓库系统。HAWQ具有大规模并行处理、完善的SQL兼容性、支持存储过程和事务、出色的性能表现等特性,还可与开源数据挖掘库MADlib轻松整合,从而使用SQL就能进行数据挖掘与机器学习。
《HAWQ数据仓库与数据挖掘实战》内容分技术解析、实战演练与数据挖掘三个部分共27章。技术解析部分说明HAWQ的基础架构与功能特性,包括安装、连接、对象与资源管理、查询优化、备份恢复、高可用性等。实战演练部分用一个完整的示例,说明如何使用HAWQ取代传统数据仓库,包括ETL处理、自动调度系统、维度表与事实表技术、OLAP与数据的图形化表示等。数据挖掘部分用实例说明HAWQ与MADlib整合,实现降维、协同过滤、关联规则、回归、聚类、分类等常见数据挖掘与机器学习方法。
《HAWQ数据仓库与数据挖掘实战》适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训机构相关专业的师生教学参考。
目录
- 第一部分HAWQ技术解析
- 第1章HAWQ概述3
- 第2章HAWQ安装部署19
- 第3章连接管理41
- 第4章数据库对象管理57
- 第5章分区表79
- 第6章存储管理99
- 第7章资源管理118
- 第8章数据管理138
- 第9章过程语言195
- 第10章查询优化215
- 第11章高可用性239
- 第二部分HAWQ实战演练
- 第12章建立数据仓库示例模型265
- 第13章初始ETL285
- 第14章定期ETL294
- 第15章自动调度执行ETL作业318
- 第16章维度表技术333
- 第17章事实表技术387
- 第18章联机分析处理423
- 第三部分HAWQ数据挖掘
- 第19章整合HAWQ与MADlib451
- 第20章奇异值分解485
- 第21章主成分分析502
- 第22章关联规则方法514
- 第23章聚类方法525
- 第24章回归方法538
- 第25章分类方法547
- 第26章图算法562
- 第27章模型验证570
关联规则简介 关联规则挖掘的目标是发现数据项集之间的关联关系,是数据挖据中一个重要的课题。关联规则最初是针对购物篮分析(Market Basket Analysis)问题提出的。假设超市经理想更多地了解顾客的购物习惯,特别是想知道,哪些商品顾客可能会在一次购物时同时购买?为回答该问题,可以对商店的顾客购买记录进行购物篮分析。该过程通过发现顾客放入“购物篮”中的不同商品之间的关联,分析顾客的购物习惯。这种关联的发现可以帮助零售商了解哪些商品频繁地被顾客同时购买,从而帮助他们开发更好的营销策略。 为了对顾客的购物篮进行分析,1993年,Agrawal等首先提出关联规则的概念,同时给出了相应的挖掘算法AIS,但是性能较差。1994年,又提出了著名的Apriori算法,至今仍然作为关联规则挖掘的经典算法被广泛讨论。 一个使用关联规则的经典购物篮分析案例是“啤酒与尿布”规则。根据对超市的顾客购买行为的数据挖掘发现,男顾客经常一起购买啤酒和尿布,于是经理决定将啤酒与尿布放置在一起,让顾客很容易在货架上看到,从而使销售额大幅度增长。关联规则挖掘除了应用于购物篮分析,在其它领域也得到了广泛应用,包括生物工程、互联网分析、电信和保险业的错误校验等。 Apriori数据挖掘算法使用事务数据。每个事务事件都具有唯一标识,事务由一组项目(或项集)组成。购买行为被认为是一个布尔值(买或不买),这种实现不考虑每个项目的购买数量。MADlib的关联规则函数假设数据存储在事务ID与项目两列中。
奇异值分解简介 奇异值分解简称SVD(singular value decomposition),可以理解为:将一个比较复杂的矩阵用更小更简单的三个子矩阵的相乘来表示,这三个小矩阵描述了大矩阵重要的特性。SVD的用处有很多,比如:LSA(隐性语义分析)、推荐系统、数据降维、信号处理与统计等。