这本《数据挖掘:方法与应用》主要根据作者徐华近几年在清华大学面向研究生和本科生开设的“ 数据挖掘:方法与应用”课程的教学实践与积累,参考近几年国外著名大学相关课程的教学体系,系统地介绍数据挖掘的基本概念和基本原理方法;结合一些典型的应用实例展示用数据挖掘的思维方法求解问题的一般性模式与思路。本书可作为有一定数据结构、数据库和程序设计基础的研究生或本科生开展数据挖掘知识学习和研究的入门性教材与参考读物。
目录
- 第1章绪论
- 1.1 应用背景
- 1.1.1 商业上的驱动
- 1.1.2 科学研究上的驱动
- 1.1.3 数据挖掘伴随着数据库技术而出现
- 1.2 什么是数据挖掘
- 1.2.1 基本描述
- 1.2.2 关于知识发现
- 1.3 数据挖掘的主要技术
- 1.4 数据挖掘的主要研究内容
- 1.5 数据挖掘面临的主要问题
- 1.6 数据挖掘相关的资料
- 1.7 本书的总体章节安排
- 1.8 小结
- 参考文献
- 第2章数据预处理
- 2.1 前言
- 2.2 数据预处理的基本概念
- 2.2.1 数据的基本概念
- 2.2.2 为什么要进行数据预处理
- 2.2.3 数据预处理的任务
- 2.3 数据的描述
- 2.3.1 描述数据的中心趋势
- 2.3.2 描述数据的分散程度
- 2.3.3 描述数据的其他方式
- 2.4 数据清洗
- 2.4.1 数据缺失的处理
- 2.4.2 数据清洗
- 2.5 数据集成和转换
- 2.5.1 数据集成
- 2.5.2 数据冗余性
- 2.5.3 数据转换
- 2.6 数据归约和变换
- 2.6.1 数据归约
- 2.6.2 数据离散化
- 2.6.3 概念层次生成
- 2.7 小结
- 参考文献
- 第3章数据仓库
- 3.1 前言
- 3.2 数据库基本概念回顾
- 3.2.1 数据库简介
- 3.2.2 表、记录和域
- 3.2.3 数据库管理系统
- 3.3 数据仓库简介
- 3.3.1 数据仓库特点
- 3.3.2 数据仓库概念
- 3.3.3 数据仓库作用
- 3.3.4 数据仓库与DBMS对比
- 3.3.5 分离数据仓库的原因
- 3.4 多维数据模型
- 3.4.1 数据立方体
- 3.4.2 概念模型
- 3.4.3 概念分层
- 3.4.4 典型OLAP操作
- 3.4.5 星型网络的查询模型
- 3.5 数据仓库结构
- 3.5.1 数据仓库设计
- 3.5.2 多层体系结构
- 3.6 数据仓库的功能
- 3.6.1 数据立方体的有效计算
- 3.6.2 索引OLAP数据
- 3.6.3 OLAP查询的有效处理
- 3.7 从数据仓库到数据挖掘
- 3.7.1 数据仓库应用
- 3.7.2 从OLAP到
- 3.8 小结
- 参考文献
- 第4章相关性与关联规则
- 4.1 基本概念
- 4.1.1 潜在的应用
- 4.1.2 购物篮问题
- 4.1.3 频繁模式分析、闭项集和关联规则
- 4.2 频繁项集挖掘方法
- 4.2.1 Apriori算法
- 4.2.2 由频繁项集产生关联规则
- 4.2.3 提高Apriori的效率
- 4.2.4 挖掘频繁项集的模式增长方法
- 4.3 多种关联规则挖掘
- 4.3.1 挖掘多层关联规则
- 4.3.2 挖掘多维关联规则
- 4.3.3 挖掘量化关联规则
- 4.4 从关联分析到相关分析
- 4.4.1 相关分析
- 4.4.2 强规则不一定是有价值的
- 4.4.3 挖掘高度关联的模式
- 4.5 基于约束的频繁模式挖掘
- 4.5.1 关联规则的元规则制导挖掘
- 4.5.2 基于约束的模式生成: 模式空间剪枝和数据空间剪枝
- 4.6 小结
- 参考文献
- 第5章分类和预测
- 5.1 前言
- 5.2 基本概念
- 5.2.1 什么是分类
- 5.2.2 什么是预测
- 5.3 关于分类和预测的问题
- 5.3.1 准备分类和预测的数据
- 5.3.2 评价分类和预测方法
- 5.4 决策树分类
- 5.4.1 决策树归纳
- 5.4.2 属性选择度量
- 5.4.3 提取分类规则
- 5.4.4 基本决策树归纳的增强
- 5.4.5 在大数据集中的分类
- 5.5 贝叶斯分类
- 5.5.1 贝叶斯定理
- 5.5.2 朴素贝叶斯分类
- 5.5.3 贝叶斯信念网络
- 5.5.4 贝叶斯网络学习
- 5.6 神经网络
- 5.6.1 神经网络简介
- 5.6.2 多层神经网络
- 5.6.3 神经网络训练
- 5.6.4 后向传播
- 5.6.5 网络剪枝和规则抽取
- 5.7 支持向量机
- 5.7.1 数据线性可分的情况
- 5.7.2 数据线性不可分的情况
- 5.7.3 支持向量机和神经网络的对比
- 5.8 关联分类
- 5.8.1 为什么有效
- 5.8.2 常见关联分类算法
- 5.9 分类准确率
- 5.9.1 估计错误率
- 5.9.2 装袋和提升
- 5.10 小结
- 参考文献
- 第6章聚类分析
- 6.1 聚类分析的定义和数据类型
- 6.1.1 聚类的定义
- 6.1.2 聚类分析和主要应用
- 6.1.3 聚类分析方法的性能指标
- 6.1.4 聚类分析使用的数据类型
- 6.2 流聚类方法分类与相似性质量
- 6.2.1 聚类分析方法分类
- 6.2.2 连续变量的距离与相似性度量
- 6.2.3 二元变量与标称变量的相似性度量
- 6.2.4 序数和比例标度变量的相似性度量
- 6.2.5 混合类型变量的相似性度量
- 6.3 基于分割的聚类
- 6.4 基于层次的聚类
- 6.5 基于密度的聚类
- 6.6 基于网格的聚类
- 6.7 基于模型的聚类
- 6.8 离群点检测
- 6.9 小结
- 参考文献
- 第7章数据挖掘应用
- 7.1 前言
- 7.2 应用研发思路
- 7.3 预处理方法
- 7.3.1 基础数据说明
- 7.3.2 数字化方法说明
- 7.3.3 深入一步的预处理方法
- 7.3.4 基本数据分布情况说明
- 7.3.5 初步分析结果
- 7.3.6 小结
- 7.4 特征提取方法
- 7.4.1 8种特征提取方法
- 7.4.2 特征总体排名策略
- 7.4.3 最终关键特征
- 7.4.4 特征提取与分析结论
- 7.4.5 小结
- 7.5 皮肤特征预测模型
- 7.5.1 预测方法回顾
- 7.5.2 预测结果分析与结论
- 7.5.3 小结
- 7.6 小结
- 参考文献
- 附录
- 附录A插图索引
- 附录B表格索引
- 附录C算法索引
- 附录D关键词索引