数据仓库与数据挖掘是决策支持的两项重要技术,它们共同的特点是都需要利用大量的数据资源,并从数据资源中提取信息和知识。由于数据资源丰富,因此数据仓库与数据挖掘的决策支持效果显著。 本书系统介绍数据仓库原理,联机分析处理,数据仓库设计与开发,数据仓库的决策支持,数据挖掘原理,基于信息论的决策树方法,基于集合论的粗糙集方法、K-均值聚类、关联规则挖掘,仿生物技术的神经网络,遗传算法,公式发现,知识挖掘,文本挖掘与Web挖掘。 本书从数据仓库的兴起来说明决策支持的特点,从数据挖掘的理论基础来说明数据挖掘的方法,并通过实例来详细讲解。希望读者在学习之后,亲自在计算机上去实践,这样才能更有效地掌握数据挖掘的方法。
目录
- 第1章 数据仓库与数据挖掘概述1
- 1.1 数据仓库的兴起1
- 1.1.1 从数据库到数据仓库1
- 1.1.2 从OLTP到OLAP3
- 1.1.3 数据字典与元数据4
- 1.1.4 数据仓库的定义与特点6
- 1.2 数据挖掘的兴起7
- 1.2.1 从机器学习到数据挖掘7
- 1.2.2 数据挖掘含义8
- 1.2.3 数据挖掘与OLAP的比较8
- 1.2.4 数据挖掘与统计学9
- 1.3 数据仓库和数据挖掘的结合11
- 1.3.1 数据仓库和数据挖掘的区别与联系11
- 1.3.2 基于数据仓库的决策支持系统13
- 1.3.3 数据仓库与商业智能14
- 习题116
- 第2章 数据仓库原理18
- 2.1 数据仓库结构体系18
- 2.1.1 数据仓库结构18
- 2.1.2 数据集市及其结构19
- 2.1.3 数据仓库系统结构22
- 2.1.4 数据仓库的运行结构24
- 2.2 数据仓库数据模型24
- 2.2.1 星型模型25
- 2.2.2 雪花模型25
- 2.2.3 星网模型26
- 2.2.4 第三范式27
- 2.3 数据抽取、转换和装载28
- 2.3.1 数据抽取28
- 2.3.2 数据转换29
- 2.3.3 数据装载31
- 2.3.4 ETL工具32
- 2.4 元数据33
- 2.4.1 元数据的重要性33
- 2.4.2 关于数据源的元数据34
- 2.4.3 关于数据模型的元数据35
- 2.4.4 关于数据仓库映射的元数据35
- 2.4.5 关于数据仓库使用的元数据37
- 习题237
- 第3章 联机分析处理39
- 3.1 OLAP概念39
- 3.1.1 OLAP的定义39
- 3.1.2 OLAP准则40
- 3.1.3 OLAP的基本概念43
- 3.2 OLAP的数据模型44
- 3.2.1 MOLAP数据模型44
- 3.2.2 ROLAP数据模型46
- 3.2.3 MOLAP与ROLAP的比较46
- 3.2.4 HOLAP数据模型49
- 3.3 多维数据的显示49
- 3.3.1 多维数据显示方法49
- 3.3.2 多维类型结构50
- 3.3.3 多维数据的分析视图50
- 3.4 OALP的多维数据分析52
- 3.4.1 多维数据分析的基本操作52
- 3.4.2 多维数据分析实例54
- 3.4.3 广义OLAP功能56
- 3.4.4 数据立方体58
- 3.4.5 多维数据分析的MDX语言及其应用62
- 习题3 65
- 第4章 数据仓库设计与开发67
- 4.1 数据仓库分析与设计67
- 4.1.1 需求分析67
- 4.1.2 概念模型设计68
- 4.1.3 逻辑模型设计69
- 4.1.4 物理模型设计75
- 4.1.5 数据仓库的索引技术77
- 4.2 数据仓库开发81
- 4.2.1 数据仓库开发过程81
- 4.2.2 数据质量与数据清洗87
- 4.2.3 数据粒度与维度建模88
- 4.3 数据仓库技术与开发的困难90
- 4.3.1 数据仓库技术90
- 4.3.2 数据仓库开发的困难93
- 习题494
- 第5章 数据仓库的决策支持96
- 5.1 数据仓库的用户96
- 5.1.1 数据仓库的信息使用者96
- 5.1.2 数据仓库的探索者98
- 5.2 数据仓库的决策支持与决策支持系统99
- 5.2.1 查询与报表100
- 5.2.2 多维分析与原因分析101
- 5.2.3 预测未来102
- 5.2.4 实时决策103
- 5.2.5 自动决策104
- 5.2.6 决策支持系统104
- 5.3 数据仓库应用实例105
- 5.3.1 航空公司数据仓库决策支持系统简例105
- 5.3.2 统计业数据仓库系统109
- 5.3.3 沃尔玛数据仓库系统112
- 习题5114
- 第6章 数据挖掘原理116
- 6.1 数据挖掘综述116
- 6.1.1 数据挖掘与知识发现116
- 6.1.2 数据挖掘对象117
- 6.1.3 数据挖掘任务119
- 6.1.4 数据挖掘分类122
- 6.1.5 不完全数据处理123
- 6.1.6 数据库的数据浓缩124
- 6.2 数据挖掘方法和技术127
- 6.2.1 归纳学习的信息论方法127
- 6.2.2 归纳学习的集合论方法128
- 6.2.3 仿生物技术的神经网络方法129
- 6.2.4 仿生物技术的遗传算法129
- 6.2.5 数值数据的公式发现130
- 6.2.6 可视化技术130
- 6.3 数据挖掘的知识表示131
- 6.3.1 规则知识131
- 6.3.2 决策树知识131
- 6.3.3 知识基(浓缩数据)132
- 6.3.4 神经网络权值132
- 6.3.5 公式知识133
- 6.3.6 案例133
- 习题6133
- 第7章 信息论方法135
- 7.1 信息论原理135
- 7.1.1 信道模型和学习信道模型136
- 7.1.2 信息熵与条件熵136
- 7.1.3 互信息与信息增益137
- 7.1.4 信道容量与译码准则138
- 7.2 决策树方法139
- 7.2.1 决策树概念139
- 7.2.2 ID3方法基本思想140
- 7.2.3 ID3算法141
- 7.2.4 实例与讨论142
- 7.2.5 C4.5方法144
- 7.3 决策规则树方法147
- 7.3.1 IBLE方法基本思想147
- 7.3.2 IBLE算法149
- 7.3.3 IBLE方法实例151
- 习题7157
- 第8章 集合论方法159
- 8.1 粗糙集方法159
- 8.1.1 粗糙集概念159
- 8.1.2 属性约简的粗糙集理论162
- 8.1.3 属性约简的粗糙集方法165
- 8.1.4 粗糙集方法的规则获取166
- 8.1.5 粗糙集方法的应用实例166
- 8.2 K-均值聚类169
- 8.2.1 聚类方法简介169
- 8.2.2 K-均值聚类方法与实例171
- 8.3 关联规则挖掘172
- 8.3.1 关联规则的挖掘原理173
- 8.3.2 Apriori算法基本思想176
- 8.3.3 Apriori算法程序179
- 8.3.4 基于FP-tree的关联规则挖掘算法180
- 习题8184
- 第9章 神经网络186
- 9.1 神经网络概念与感知机186
- 9.1.1 神经网络原理186
- 9.1.2 感知机网络187
- 9.1.3 感知机实例与讨论190
- 9.2 反向传播网络191
- 9.2.1 反向传播网络结构191
- 9.2.2 BP网络学习公式推导191
- 9.2.3 BP网络的典型实例196
- 9.3 径向基函数网络197
- 9.3.1 径向基函数RBF网络原理197
- 9.3.2 RBF网络算法与分析198
- 9.4 神经网络的几何意义199
- 9.4.1 神经网络的超平面含义199
- 9.4.2 异或问题的实例分析202
- 习题9204
- 第10章 遗传算法与进化计算206
- 10.1 遗传算法206
- 10.1.1 遗传算法基本原理206
- 10.1.2 遗传算子208
- 10.1.3 遗传算法简例212
- 10.1.4 遗传算法的特点214
- 10.2 基于遗传算法的分类学习系统215
- 10.2.1 概述215
- 10.2.2 遗传分类学习系统GCLS的基本原理216
- 10.2.3 遗传分类学习系统GCLS的应用220
- 10.3 进化计算221
- 10.3.1 进化计算概述221
- 10.3.2 进化策略与进化规划222
- 10.3.3 进化计算小结224
- 习题10226
- 第11章 公式发现227
- 11.1 公式发现概述227
- 11.1.1 曲线拟合与发现学习227
- 11.1.2 启发式与数据驱动启发式229
- 11.2 科学定律重新发现系统230
- 11.2.1 BACON系统基本原理230
- 11.2.2 BACON系统实例231
- 11.2.3 BACON系统的进展234
- 11.3 经验公式发现系统235
- 11.3.1 FDD系统基本原理235
- 11.3.2 FDD.1系统237
- 11.3.3 FDD.2系统242
- 11.3.4 FDD.3系统245
- 习题11249
- 第12章 知识挖掘251
- 12.1 变换规则的知识挖掘251
- 12.1.1 适应变化环境的变换和变换规则251
- 12.1.2 变换规则的知识挖掘的理论基础253
- 12.1.3 变换规则的知识推理255
- 12.1.4 变换规则链的知识挖掘257
- 12.1.5 适应变化环境的变换规则元知识260
- 12.2 软件进化规律的知识挖掘264
- 12.2.1 数值计算的进化 264
- 12.2.2 计算机程序的进化269
- 12.2.3 数据存储的进化271
- 12.2.4 知识处理的进化274
- 12.2.5 进化规律的知识挖掘276
- 习题12280
- 第13章 文本挖掘与Web挖掘281
- 13.1 文本挖掘概述281
- 13.1.1 文本挖掘的基本概念281
- 13.1.2 文本特征的表示282
- 13.1.3 文本特征的提取283
- 13.2 文本挖掘284
- 13.2.1 文本挖掘功能层次284
- 13.2.2 文本关联分析285
- 13.2.3 文本聚类285
- 13.2.4 文本分类286
- 13.3 Web挖掘287
- 13.3.1 Web挖掘概述287
- 13.3.2 Web内容挖掘290
- 13.3.3 Web结构挖掘291
- 13.3.4 Web应用(访问信息)挖掘293
- 13.3.5 Web日志分析与实例295
- 习题13300
- 参考文献302