本书完整全面地讲述数据挖掘的概念、方法、技术和最新研究进展。本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容,还全面讲述了OLAP和离群点检测,并研讨了挖掘网络、复杂数据类型以及重要应用领域。
本书是数据挖掘和知识发现领域内的所有教师、研究人员、开发人员和用户都必读的参考书,是一本适用于数据分析、数据挖掘和知识发现课程的优秀教材,可以用做高年级本科生或者一年级研究生的数据挖掘导论教材。
目录
- 第1章 引论
- 1.1 为什么进行数据挖掘
- 1.1.1 迈向信息时代
- 1.1.2 数据挖掘是信息技术的进化
- 1.2 什么是数据挖掘
- 1.3 可以挖掘什么类型的数据
- 1.3.1 数据库数据
- 1.3.2 数据仓库
- 1.3.3 事务数据
- 1.3.4 其他类型的数据
- 1.4 可以挖掘什么类型的模式
- 1.4.1 类/概念描述:特征化与区分
- 1.4.2 挖掘频繁模式、关联和相关性
- 1.4.3 用于预测分析的分类与回归
- 1.4.4 聚类分析
- 1.4.5 离群点分析
- 1.4.6 所有模式都是有趣的吗
- 1.5 使用什么技术
- 1.5.1 统计学
- 1.5.2 机器学习
- 1.5.3 数据库系统与数据仓库
- 1.5.4 信息检索
- 1.6 面向什么类型的应用
- 1.6.1 商务智能
- 1.6.2 Web搜索引擎
- 1.7 数据挖掘的主要问题
- 1.7.1 挖掘方法
- 1.7.2 用户界面
- 1.7.3 有效性和可伸缩性
- 1.7.4 数据库类型的多样性
- 1.7.5 数据挖掘与社会
- 1.8 小结
- 1.9 习题
- 1.10 文献注释
- 第2章 认识数据
- 2.1 数据对象与属性类型
- 2.1.1 什么是属性
- 2.1.2 标称属性
- 2.1.3 二元属性
- 2.1.4 序数属性
- 2.1.5 数值属性
- 2.1.6 离散属性与连续属性
- 2.2 数据的基本统计描述
- 2.2.1 中心趋势度量:均值、中位数和众数
- 2.2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差
- 2.2.3 数据的基本统计描述的图形显示
- 2.3 数据可视化
- 2.3.1 基于像素的可视化技术
- 2.3.2 几何投影可视化技术
- 2.3.3 基于图符的可视化技术
- 2.3.4 层次可视化技术
- 2.3.5 可视化复杂对象和关系
- 2.4 度量数据的相似性和相异性
- 2.4.1 数据矩阵与相异性矩阵
- 2.4.2 标称属性的邻近性度量
- 2.4.3 二元属性的邻近性度量
- 2.4.4 数值属性的相异性:闵可夫斯基距离
- 2.4.5 序数属性的邻近性度量
- 2.4.6 混合类型属性的相异性
- 2.4.7 余弦相似性
- 2.5 小结
- 2.6 习题
- 2.7 文献注释
- 第3章 数据预处理
- 3.1 数据预处理:概述
- 3.1.1 数据质量:为什么要对数据预处理
- 3.1.2 数据预处理的主要任务
- 3.2 数据清理
- 3.2.1 缺失值
- 3.2.2 噪声数据
- 3.2.3 数据清理作为一个过程
- 3.3 数据集成
- 3.3.1 实体识别问题
- 3.3.2 冗余和相关分析
- 3.3.3 元组重复
- 3.3.4 数据值冲突的检测与处理
- 3.4 数据归约
- 3.4.1 数据归约策略概述
- 3.4.2 小波变换
- 3.4.3 主成分分析
- 3.4.4 属性子集选择
- 3.4.5 回归和对数线性模型:参数化数据归约
- 3.4.6 直方图
- 3.4.7 聚类
- 3.4.8 抽样
- 3.4.9 数据立方体聚集
- 3.5 数据变换与数据离散化
- 3.5.1 数据变换策略概述
- 3.5.2 通过规范化变换数据
- 3.5.3 通过分箱离散化
- 3.5.4 通过直方图分析离散化
- 3.5.5 通过聚类、决策树和相关分析离散化
- 3.5.6 标称数据的概念分层产生
- 3.6 小结
- 3.7 习题
- 3.8 文献注释
- 第4章 数据仓库与联机分析处理
- 4.1 数据仓库:基本概念
- 4.1.1 什么是数据仓库
- 4.1.2 操作数据库系统与数据仓库的区别
- 4.1.3 为什么需要分离的数据仓库
- 4.1.4 数据仓库:一种多层体系结构
- 4.1.5 数据仓库模型:企业仓库、数据集市和虚拟仓库
- 4.1.6 数据提取、变换和装入
- 4.1.7 元数据库
- 4.2 数据仓库建模:数据立方体与OLAP
- 4.2.1 数据立方体:一种多维数据模型
- 4.2.2 星形、雪花形和事实星座:多维数据模型的模式
- 4.2.3 维:概念分层的作用
- 4.2.4 度量的分类和计算
- 4.2.5 典型的OLAP操作
- 4.2.6 查询多维数据库的星网查询模型
- 4.3 数据仓库的设计与使用
- 4.3.1 数据仓库的设计的商务分析框架
- 4.3.2 数据仓库的设计过程
- 4.3.3 数据仓库用于信息处理
- 4.3.4 从联机分析处理到多维数据挖掘
- 4.4 数据仓库的实现
- 4.4.1 数据立方体的有效计算:概述
- 4.4.2 索引OLAP数据:位图索引和连接索引
- 4.4.3 OLAP查询的有效处理
- 4.4.4 OLAP服务器结构:ROLAP、MOLAP、HOLAP的比较
- 4.5 数据泛化:面向属性的归纳
- 4.5.1 数据特征的面向属性的归纳
- 4.5.2 面向属性归纳的有效实现
- 4.5.3 类比较的面向属性归纳
- 4.6 小结
- 4.7 习题
- 4.8 文献注释
- 第5章 数据立方体技术
- 5.1 数据立方体计算:基本概念
- 5.1.1 立方体物化:完全立方体、冰山立方体、闭立方体和立方体外壳
- 5.1.2 数据立方体计算的一般策略
- 5.2 数据立方体计算方法
- 5.2.1 完全立方体计算的多路数组聚集
- 5.2.2 BUC:从顶点方体向下计算冰山立方体
- 5.2.3 Star-Cubing:使用动态星树结构计算冰山立方体
- 5.2.4 为快速高维OLAP预计算壳片段
- 5.3 使用探索立方体技术处理高级查询
- 5.3.1 抽样立方体:样本数据上基于OLAP的挖掘
- 5.3.2 排序立方体:top-k查询的有效计算
- 5.4 数据立方体空间的多维数据分析
- 5.4.1 预测立方体:立方体空间的预测挖掘
- 5.4.2 多特征立方体:多粒度上的复杂聚集
- 5.4.3 基于异常的、发现驱动的立方体空间探查
- 5.5 小结
- 5.6 习题
- 5.7 文献注释
- 第6章 挖掘频繁模式、关联和相关性:基本概念和方法
- 6.1 基本概念
- 6.1.1 购物篮分析:一个诱发例子
- 6.1.2 频繁项集、闭项集和关联规则
- 6.2 频繁项集挖掘方法
- 6.2.1 Apriori算法:通过限制候选产生发现频繁项集
- 6.2.2 由频繁项集产生关联规则
- 6.2.3 提高Apriori算法的效率
- 6.2.4 挖掘频繁项集的模式增长方法
- 6.2.5 使用垂直数据格式挖掘频繁项集
- 6.2.6 挖掘闭模式和极大模式
- 6.3 哪些模式是有趣的:模式评估方法
- 6.3.1 强规则不一定是有趣的
- 6.3.2 从关联分析到相关分析
- 6.3.3 模式评估度量比较
- 6.4 小结
- 6.5 习题
- 6.6 文献注释
- 第7章 高级模式挖掘
- 7.1 模式挖掘:一个路线图
- 7.2 多层、多维空间中的模式挖掘
- 7.2.1 挖掘多层关联规则
- 7.2.2 挖掘多维关联规则
- 7.2.3 挖掘量化关联规则
- 7.2.4 挖掘稀有模式和负模式
- 7.3 基于约束的频繁模式挖掘
- 7.3.1 关联规则的元规则制导挖掘
- 7.3.2 基于约束的模式产生:模式空间剪枝和数据空间剪枝
- 7.4 挖掘高维数据和巨型模式
- 7.5 挖掘压缩或近似模式
- 7.5.1 通过模式聚类挖掘压缩模式
- 7.5.2 提取感知冗余的top-k模式
- 7.6 模式探索与应用
- 7.6.1 频繁模式的语义注解
- 7.6.2 模式挖掘的应用
- 7.7 小结
- 7.8 习题
- 7.9 文献注释
- 第8章 分类:基本概念
- 8.1 基本概念
- 8.1.1 什么是分类
- 8.1.2 分类的一般方法
- 8.2 决策树归纳
- 8.2.1 决策树归纳
- 8.2.2 属性选择度量
- 8.2.3 树剪枝
- 8.2.4 可伸缩性与决策树归纳
- 8.2.5 决策树归纳的可视化挖掘
- 8.3 贝叶斯分类方法
- 8.3.1 贝叶斯定理
- 8.3.2 朴素贝叶斯分类
- 8.4 基于规则的分类
- 8.4.1 使用IF-THEN规则分类
- 8.4.2 由决策树提取规则
- 8.4.3 使用顺序覆盖算法的规则归纳
- 8.5 模型评估与选择
- 8.5.1 评估分类器性能的度量
- 8.5.2 保持方法和随机二次抽样
- 8.5.3 交叉验证
- 8.5.4 自助法
- 8.5.5 使用统计显著性检验选择模型
- 8.5.6 基于成本效益和ROC曲线比较分类器
- 8.6 提高分类准确率的技术
- 8.6.1 组合分类方法简介
- 8.6.2 装袋
- 8.6.3 提升和AdaBoost
- 8.6.4 随机森林
- 8.6.5 提高类不平衡数据的分类准确率
- 8.7 小结
- 8.8 习题
- 8.9 文献注释
- 第9章 分类:高级方法
- 9.1 贝叶斯信念网络
- 9.1.1 概念和机制
- 9.1.2 训练贝叶斯信念网络
- 9.2 用后向传播分类
- 9.2.1 多层前馈神经网络
- 9.2.2 定义网络拓扑
- 9.2.3 后向传播
- 9.2.4 黑盒内部:后向传播和可解释性
- 9.3 支持向量机
- 9.3.1 数据线性可分的情况
- 9.3.2 数据非线性可分的情况
- 9.4 使用频繁模式分类
- 9.4.1 关联分类
- 9.4.2 基于有区别力的频繁模式分类
- 9.5 惰性学习法(或从近邻学习)
- 9.5.1 k-最近邻分类
- 9.5.2 基于案例的推理
- 9.6 其他分类方法
- 9.6.1 遗传算法
- 9.6.2 粗糙集方法
- 9.6.3 模糊集方法
- 9.7 关于分类的其他问题
- 9.7.1 多类分类
- 9.7.2 半监督分类
- 9.7.3 主动学习
- 9.7.4 迁移学习
- 9.8 小结
- 9.9 习题
- 9.10 文献注释
- 第10章 聚类分析:基本概念和方法
- 10.1 聚类分析
- 10.1.1 什么是聚类分析
- 10.1.2 对聚类分析的要求
- 10.1.3 基本聚类方法概述
- 10.2 划分方法
- 10.2.1 k-均值:一种基于形心的技术
- 10.2.2 k-中心点:一种基于代表对象的技术
- 10.3 层次方法
- 10.3.1 凝聚的与分裂的层次聚类
- 10.3.2 算法方法的距离度量
- 10.3.3 BIRCH:使用聚类特征树的多阶段聚类
- 10.3.4 Chameleon:使用动态建模的多阶段层次聚类
- 10.3.5 概率层次聚类
- 10.4 基于密度的方法
- 10.4.1 DBSCAN:一种基于高密度连通区域的基于密度的聚类
- 10.4.2 OPTICS:通过点排序识别聚类结构
- 10.4.3 DENCLUE:基于密度分布函数的聚类
- 10.5 基于网格的方法
- 10.5.1 STING:统计信息网格
- 10.5.2 CLIQUE:一种类似于Apriori的子空间聚类方法
- 10.6 聚类评估
- 10.6.1 估计聚类趋势
- 10.6.2 确定簇数
- 10.6.3 测定聚类质量
- 10.7 小结
- 10.8 习题
- 10.9 文献注释
- 第11章 高级聚类分析
- 11.1 基于概率模型的聚类
- 11.1.1 模糊簇
- 11.1.2 基于概率模型的聚类
- 11.1.3 期望最大化算法
- 11.2 聚类高维数据
- 11.2.1 聚类高维数据:问题、挑战和主要方法
- 11.2.2 子空间聚类方法
- 11.2.3 双聚类
- 11.2.4 维归约方法和谱聚类
- 11.3 聚类图和网络数据
- 11.3.1 应用与挑战
- 11.3.2 相似性度量
- 11.3.3 图聚类方法
- 11.4 具有约束的聚类
- 11.4.1 约束的分类
- 11.4.2 具有约束的聚类方法
- 11.5 小结
- 11.6 习题
- 11.7 文献注释
- 第12章 离群点检测
- 12.1 离群点和离群点分析
- 12.1.1 什么是离群点
- 12.1.2 离群点的类型
- 12.1.3 离群点检测的挑战
- 12.2 离群点检测方法
- 12.2.1 监督、半监督和无监督方法
- 12.2.2 统计方法、基于邻近性的方法和基于聚类的方法
- 12.3 统计学方法
- 12.3.1 参数方法
- 12.3.2 非参数方法
- 12.4 基于邻近性的方法
- 12.4.1 基于距离的离群点检测和嵌套循环方法
- 12.4.2 基于网格的方法
- 12.4.3 基于密度的离群点检测
- 12.5 基于聚类的方法
- 12.6 基于分类的方法
- 12.7 挖掘情境离群点和集体离群点
- 12.7.1 把情境离群点检测转换成传统的离群点检测
- 12.7.2 关于情境对正常行为建模
- 12.7.3 挖掘集体离群点
- 12.8 高维数据中的离群点检测
- 12.8.1 扩充的传统离群点检测
- 12.8.2 发现子空间中的离群点
- 12.8.3 高维离群点建模
- 12.9 小结
- 12.10 习题
- 12.11 文献注释
- 第13章 数据挖掘的发展趋势和研究前沿
- 13.1 挖掘复杂的数据类型
- 13.1.1 挖掘序列数据:时间序列、符号序列和生物学序列
- 13.1.2 挖掘图和网络
- 13.1.3 挖掘其他类型的数据
- 13.2 数据挖掘的其他方法
- 13.2.1 统计学数据挖掘
- 13.2.2 关于数据挖掘基础的观点
- 13.2.3 可视和听觉数据挖掘
- 13.3 数据挖掘应用
- 13.3.1 金融数据分析的数据挖掘
- 13.3.2 零售和电信业的数据挖掘
- 13.3.3 科学与工程数据挖掘
- 13.3.4 入侵检测和预防数据挖掘
- 13.3.5 数据挖掘与推荐系统
- 13.4 数据挖掘与社会
- 13.4.1 普适的和无形的数据挖掘
- 13.4.2 数据挖掘的隐私、安全和社会影响
- 13.5 数据挖掘的发展趋势
- 13.6 小结
- 13.7 习题
- 13.8 文献注释
- 参考文献