《数据挖掘概念与技术(第2版)》是2007年机械工业出版社出版的图书,作者是JiaweiHan(加)(加)MichelineKamber。
本书全面地讲述数据挖掘领域的重要知识和技术创新。在第1版内容相当全面的基础上,第2版展示了该领域的最新研究成果,例如挖掘流、时序和序列数据以及挖掘时间空间、多媒体、文本和Web数据。本书可作为数据挖掘和知识发现领域的教师、研究人员和开发人员的一本必读书。
本书第1版曾是受读者欢迎的数据挖掘专著,是一本可读性极佳的教材。第2版充实了数据挖掘领域研究新进展的题材,增加了讲述最新的数据挖掘方法的若干章节。本书适合作为高等院校计算机及相关专业高年级本科生的选修课教材,特别适合作为研究生的专业课教材。
目录
- 出版者的话
- 专家指导委员会
- 中文版序
- 译者序
- 序
- 前言
- 第1章 引言 1
- 1.1 什么激发了数据挖掘,为什么它是重要的 1
- 1.2 什么是数据挖掘 3
- 1.3 对何种数据进行数据挖掘 6
- 1.3.1 关系数据库 6
- 1.3.2 数据仓库 8
- 1.3.3 事务数据库 10
- 1.3.4 高级数据和信息系统与高级应用 10
- 1.4 数据挖掘功能—可以挖掘什么类型的模式 14
- 1.4.1 概念/类描述:特征化和区分 14
- 1.4.2 挖掘频繁模式、关联和相关 15
- 1.4.3 分类和预测 15
- 1.4.4 聚类分析 17
- 1.4.5 离群点分析 17
- .1.4.6 演变分析 18
- 1.5 所有模式都是有趣的吗 18
- 1.6 数据挖掘系统的分类 19
- 1.7 数据挖掘任务原语 20
- 1.8 数据挖掘系统与数据库系统或数据仓库系统的集成 22
- 1.9 数据挖掘的主要问题 23
- 1.10 小结 25
- 习题 26
- 文献注释 27
- 第2章 数据预处理 30
- 2.1 为什么要预处理数据 30
- 2.2 描述性数据汇总 32
- 2.2.1 度量数据的中心趋势 32
- 2.2.2 度量数据的离散程度 34
- 2.2.3 基本描述数据汇总的图形显示 36
- 2.3 数据清理 39
- 2.3.1 缺失值 39
- 2.3.2 噪声数据 40
- 2.3.3 数据清理作为一个过程 41
- 2.4 数据集成和变换 43
- 2.4.1 数据集成 43
- 2.4.2 数据变换 45
- 2.5 数据归约 47
- 2.5.1 数据立方体聚集 47
- 2.5.2 属性子集选择 48
- 2.5.3 维度归约 49
- 2.5.4 数值归约 51
- 2.6 数据离散化和概念分层产生 55
- 2.6.1 数值数据的离散化和概念分层产生 56
- 2.6.2 分类数据的概念分层产生 60
- 2.7 小结 62
- 习题 62
- 文献注释 65
- 第3章 数据仓库与olap技术概述 67
- 3.1 什么是数据仓库 67
- 3.1.1 操作数据库系统与数据仓库的区别 68
- 3.1.2 为什么需要分离的数据仓库 69
- 3.2 多维数据模型 70
- 3.2.1 由表和电子数据表到数据立方体 70
- 3.2.2 星形、雪花形和事实星座形模式:多维数据库模式 72
- 3.2.3 定义星形、雪花形和事实星座形模式的例子 75
- 3.2.4 度量的分类和计算 76
- 3.2.5 概念分层 77
- 3.2.6 多维数据模型中的olap操作 79
- 3.2.7 查询多维数据库的星形网查询模型 81
- 3.3 数据仓库的系统结构 82
- 3.3.1 数据仓库的设计和构造步骤 82
- 3.3.2 三层数据仓库的系统结构 83
- 3.3.3 数据仓库后端工具和实用程序 85
- 3.3.4 元数据储存库 86
- 3.3.5 olap服务器类型:rolap、
- molap与holap 86
- 3.4 数据仓库实现 88
- 3.4.1 数据立方体的有效计算 88
- 3.4.2 索引olap数据 90
- 3.4.3 olap查询的有效处理 92
- 3.5 从数据仓库到数据挖掘 93
- 3.5.1 数据仓库的使用 93
- 3.5.2 由联机分析处理到联机分析挖掘 95
- 3.6 小结 96
- 习题 97
- 文献注释 99
- 第4章 数据立方体计算与数据泛化 101
- 4.1 数据立方体计算的有效方法 101
- 4.1.1 不同类型立方体物化的路线图 101
- 4.1.2 完全立方体计算的多路数组聚集 105
- 4.1.3 buc:从顶点方体向下计算冰山立方体 108
- 4.1.4 star-cubing:使用动态星形树结构计算冰山立方体 111
- 4.1.5 为快速高维olap预计算壳片段 116
- 4.1.6 计算具有复杂冰山条件的立方体 121
- 4.2 数据立方体和olap技术的进一步发展 122
- 4.2.1 数据立方体的发现驱动的探查 122
- 4.2.2 在多粒度的复杂聚集:多特征立方体 124
- 4.2.3 数据立方体中被约束的梯度分析 126
- 4.3 面向属性的归纳—另一种数据泛化和概念描述方法 128
- 4.3.1 数据特征化的面向属性的归纳 129
- 4.3.2 面向属性归纳的有效实现 132
- 4.3.3 导出泛化的表示 133
- 4.3.4 挖掘类比较:区分不同的类 136
- 4.3.5 类描述:特征化和比较的表示 139
- 4.4 小结 140
- 习题 141
- 文献注释 144
- 第5章 挖掘频繁模式、关联和相关 146
- 5.1 基本概念和路线图 146
- 5.1.1 购物篮分析:引发性例子 146
- 5.1.2 频繁项集、闭项集和关联规则 147
- 5.1.3 频繁模式挖掘:路线图 149
- 5.2 有效的和可伸缩的频繁项集挖掘方法 150
- 5.2.1 apriori算法:使用候选产生发现频繁项集 151
- 5.2.2 由频繁项集产生关联规则 154
- 5.2.3 提高apriori算法的效率 155
- 5.2.4 不候选产生挖掘频繁项集 156
- 5.2.5 使用垂直数据格式挖掘频繁项集 159
- 5.2.6 挖掘闭频繁项集 160
- 5.3 挖掘各种类型的关联规则 162
- 5.3.1 挖掘多层关联规则 162
- 5.3.2 从关系数据库和数据仓库挖掘多维关联规则 164
- 5.4 由关联挖掘到相关分析 168
- 5.4.1 强关联规则不一定有趣:一个例子 168
- 5.4.2 从关联分析到相关分析 168
- 5.5 基于约束的关联挖掘 172
- 5.5.1 关联规则的元规则制导挖掘 172
- 5.5.2 约束推进:规则约束制导的挖掘 173
- 5.6 小结 176
- 习题 177
- 文献注释 181
- 第6章 分类和预测 184
- 6.1 什么是分类,什么是预测.. 184
- 6.2 关于分类和预测的问题 186
- 6.2.1 为分类和预测准备数据 186
- 6.2.2 比较分类和预测方法 187
- 6.3 用决策树归纳分类 188
- 6.3.1 决策树归纳 189
- 6.3.2 属性选择度量 191
- 6.3.3 树剪枝 196
- 6.3.4 可伸缩性与决策树归纳 198
- 6.4 贝叶斯分类 200
- 6.4.1 贝叶斯定理 201
- 6.4.2 朴素贝叶斯分类 201
- 6.4.3 贝叶斯信念网络 204
- 6.4.4 训练贝叶斯信念网络 205
- 6.5 基于规则的分类 206
- 6.5.1 使用if-then规则分类 206
- 6.5.2 从决策树提取规则 208
- 6.5.3 使用顺序覆盖算法的规则归纳 209
- 6.6 用后向传播分类 212
- 6.6.1 多层前馈神经网络 213
- 6.6.2 定义网络拓扑 213
- 6.6.3 后向传播 214
- 6.6.4 黑盒内部:后向传播和可解释性 218
- 6.7 支持向量机 219
- 6.7.1 数据线性可分的情况 219
- 6.7.2 数据非线性可分的情况 222
- 6.8 关联分类:基于关联规则分析的分类 224
- 6.9 惰性学习法(或从近邻学习) 226
- 6.9.1 k最近邻分类法 226
- 6.9.2 基于案例的推理 228
- 6.10 其他分类方法 228
- 6.10.1 遗传算法 228
- 6.10.2 粗糙集方法 229
- 6.10.3 模糊集方法 229
- 6.11 预测 231
- 6.11.1 线性回归 231
- 6.11.2 非线性回归 233
- 6.11.3 其他基于回归的方法 234
- 6.12 准确率和误差的度量 234
- 6.12.1 分类器准确率度量 234
- 6.12.2 预测器误差度量 236
- 6.13 评估分类器或预测器的准确率 237
- 6.13.1 保持方法和随机子抽样 237
- 6.13.2 交叉确认 238
- 6.13.3 自助法 238
- 6.14 系综方法—提高准确率 238
- 6.14.1 装袋 239
- 6.14.2 提升 240
- 6.15 模型选择 241
- 6.15.1 估计置信区间 242
- 6.15.2 roc 曲线 243
- 6.16 小结 244
- 习题 245
- 文献注释 247
- 第7章 聚类分析 251
- 7.1 什么是聚类分析 251
- 7.2 聚类分析中的数据类型 253
- 7.2.1 区间标度变量 253
- 7.2.2 二元变量 255
- 7.2.3 分类、序数和比例标度变量 256
- 7.2.4 混合类型的变量 259
- 7.2.5 向量对象 260
- 7.3 主要聚类方法的分类 261
- 7.4 划分方法 263
- 7.4.1 典型的划分方法:k均值和k中心点 263
- 7.4.2 大型数据库的划分方法:从k中心点到clarans 266
- 7.5 层次方法 267
- 7.5.1 凝聚和分裂层次聚类 267
- 7.5.2 birch:利用层次方法的平衡迭代归约和聚类 269
- 7.5.3 rock:分类属性的层次聚类算法 271
- 7.5.4 chameleon:利用动态建模的层次聚类算法 272
- 7.6 基于密度的方法 273
- 7.6.1 dbscan:一种基于高密度连通区域的基于密度的聚类方法 273
- 7.6.2 optics:通过点排序识别聚类结构 275
- 7.6.3 denclue:基于密度分布函数的聚类 276
- 7.7 基于网格的方法 278
- 7.7.1 sting:统计信息网格 278
- 7.7.2 wavecluster:利用小波变换聚类 279
- 7.8 基于模型的聚类方法 280
- 7.8.1 期望最大化方法 280
- 7.8.2 概念聚类 281
- 7.8.3 神经网络方法 283
- 7.9 聚类高维数据 284
- 7.9.1 clique:维增长子空间聚类方法 285
- 7.9.2 proclus:维归约子空间聚类方法 287
- 7.9.3 基于频繁模式的聚类方法 287
- 7.10 基于约束的聚类分析 290
- 7.10.1 含有障碍物的对象聚类 291
- 7.10.2 用户约束的聚类分析 293
- 7.10.3 半监督聚类分析 293
- 7.11 离群点分析 295
- 7.11.1 基于统计分布的离群点检测 295
- 7.11.2 基于距离的离群点检测 296
- 7.11.3 基于密度的局部离群点检测 298
- 7.11.4 基于偏差的离群点检测 299
- 7.12 小结 300
- 习题 301
- 文献注释 303
- 第8章 挖掘流、时间序列和序列数据 306
- 8.1 挖掘数据流 306
- 8.1.1 流数据处理方法和流数据系统 307
- 8.1.2 流olap和流数据立方体 310
- 8.1.3 数据流中的频繁模式挖掘 314
- 8.1.4 动态数据流的分类 315
- 8.1.5 聚类演变数据流 318
- 8.2 时间序列数据挖掘 320
- 8.2.1 趋势分析 320
- 8.2.2 时间序列分析中的相似性搜索 323
- 8.3 挖掘事务数据库中的序列模式 325
- 8.3.1 序列模式挖掘:概念和原语 326
- 8.3.2 挖掘序列模式的可伸缩方法 327
- 8.3.3 基于约束的序列模式挖掘 333
- 8.3.4 时间相关序列数据的周期性分析 335
- 8.4 挖掘生物学数据中的序列模式 336
- 8.4.1 生物学序列比对 336
- 8.4.2 生物学序列分析的隐马尔可夫模型 339
- 8.5 小结 345
- 习题 346
- 文献注释 348
- 第9章 图挖掘、社会网络分析和多关系数据挖掘 351
- 9.1 图挖掘 351
- 9.1.1 挖掘频繁子图的方法 351
- 9.1.2 挖掘变体和约束子结构的模式 357
- 9.1.3 应用:图索引、相似性搜索、分类和聚类 361
- 9.2 社会网络分析 363
- 9.2.1 什么是社会网络 363
- 9.2.2 社会网络的特征 365
- 9.2.3 链接挖掘:任务和挑战 367
- 9.2.4 挖掘社会网络 369
- 9.3 多关系数据挖掘 373
- 9.3.1 什么是多关系数据挖掘 373
- 9.3.2 多关系分类的ilp方法 375
- 9.3.3 元组id传播 376
- 9.3.4 利用元组id传播进行多关系分类 377
- 9.3.5 用户指导的多关系聚类 379
- 9.4 小结 382
- 习题 383
- 文献注释 384
- 第10章 挖掘对象、空间、多媒体、文本和web数据 386
- 10.1 复杂数据对象的多维分析和描述性挖掘 386
- 10.1.1 结构化数据的泛化 386
- 10.1.2 空间和多媒体数据泛化中的聚集和近似 387
- 10.1.3 对象标识和类/子类层次的泛化 388
- 10.1.4 类复合层次泛化 388
- 10.1.5 对象立方体的构造与挖掘 389
- 10.1.6 用分治法对规划数据库进行基于泛化的挖掘 389
- 10.2 空间数据挖掘 391
- 10.2.1 空间数据立方体构造和空间olap 392
- 10.2.2 挖掘空间关联和并置模式 395
- 10.2.3 空间聚类方法 396
- 10.2.4 空间分类和空间趋势分析 396
- 10.2.5 挖掘光栅数据库 396
- 10.3 多媒体数据挖掘 396
- 10.3.1 多媒体数据的相似性搜索 396
- 10.3.2 多媒体数据的多维分析 397
- 10.3.3 多媒体数据的分类和预测分析 399
- 10.3.4 挖掘多媒体数据中的关联 399
- 10.3.5 音频和视频数据挖掘 400
- 10.4 文本挖掘 401
- 10.4.1 文本数据分析和信息检索 401
- 10.4.2 文本的维度归约 405
- 10.4.3 文本挖掘方法 407
- 10.5 挖掘万维网 410
- 10.5.1 挖掘web页面布局结构 411
- 10.5.2 挖掘web链接结构识别权威web页面 413
- 10.5.3 挖掘web上的多媒体数据 416
- 10.5.4 web文档的自动分类 418
- 10.5.5 web使用挖掘 418
- 10.6 小结 419
- 习题 420
- 文献注释 421
- 第11章 数据挖掘的应用和发展趋势 424
- 11.1 数据挖掘的应用 424
- 11.1.1 金融数据分析的数据挖掘 424
- 11.1.2 零售业的数据挖掘 425
- 11.1.3 电信业的数据挖掘 426
- 11.1.4 生物学数据分析的数据挖掘 427
- 11.1.5 其他科技应用的数据挖掘 428
- 11.1.6 入侵检测的数据挖掘 429
- 11.2 数据挖掘系统产品和研究原型 430
- 11.2.1 如何选择数据挖掘系统 431
- 11.2.2 商用数据挖掘系统的实例 432
- 11.3 数据挖掘的其他主题 433
- 11.3.1 数据挖掘的理论基础 434
- 11.3.2 统计学数据挖掘 434
- 11.3.3 可视数据和音频数据挖掘 435
- 11.3.4 数据挖掘和协同过滤 440
- 11.4 数据挖掘的社会影响 440
- 11.4.1 无处不在和无形的数据挖掘 441
- 11.4.2 数据挖掘、隐私和数据安全 443
- 11.5 数据挖掘的发展趋势 445
- 11.6 小结 446
- 习题 447
- 文献注释 449
- 附录 微软用于数据挖掘的ole db简介 452
- a.1 模型创建 453
- a.2 模型训练 454
- a.3 模型预测和浏览 456
- 索引 460