《数据挖掘:概念、模型、方法和算法(第2版)》开篇阐述数据挖掘原理,此后在示例的引导下详细讲解起源于统计学、机器学习、神经网络、模糊逻辑和演化计算等学科的具有代表性的、最前沿的挖掘方法和算法。本书还着重描述如何恰当地选择方法和数据分析软件并合理地调整参数。每章末尾附有复习题。 本书主要用作计算机科学、计算机工程和计算机信息系统专业的研究生数据挖掘教材,高年级本科生或具备同等教育背景的读者也完全可以理解本书的所有主题。
目录
- 第1章 数据挖掘的概念
- 1.1 概述
- 1.2 数据挖掘的起源
- 1.3 数据挖掘过程
- 1.4 大型数据集
- 1.5 数据仓库
- 1.6 数据挖掘的商业方面:为什么数据挖掘项目会失败
- 1.7 本书结构安排
- 1.8 复习题
- 1.9 参考书目
- 第2章 数据准备
- 2.1 原始数据的表述
- 2.2 原始数据的特性
- 2.3 原始数据的转换
- 2.3.1 标准化
- 2.3.2 数据平整
- 2.3.3 差值和比率
- 2.4 丢失数据
- 2.5 时间相关数据
- 2.6 异常点分析
- 2.7 复习题
- 2.8 参考书目
- 第3章 数据归约
- 3.1 大型数据集的维度
- 3.2 特征归约
- 3.2.1 特征选择
- 3 .2.2 特征提取
- 3.3 Relief算法
- 3.4 特征排列的熵度量
- 3.5 主成分分析
- 3.6 值归约
- 3.7 特征离散化ChiMerge技术
- 3.8 案例归约
- 3.9 复习题
- 3.10 参考书目
- 第4章 从数据中学习
- 4.1 学习机器
- 4.2 统计学习原理
- 4.3 学习方法的类型
- 4.4 常见的学习任务
- 4.5 支持向量机
- 4.6 kNN:最近邻分类器
- 4.7 模型选择与泛化
- 4.8 模型的评估
- 4.9 90%准确的情形
- 4.9.1 保险欺诈检测
- 4.9.2 改进心脏护理
- 4.10 复习题
- 4.11 参考书目
- 第5章 统计方法
- 5.1 统计推断
- 5.2 评测数据集的差异
- 5.3 贝叶斯定理
- 5.4 预测回归
- 5.5 方差分析
- 5.6 对数回归
- 5.7 对数-线性模型
- 5.8 线性判别分析
- 5.9 复习题
- 5.10 参考书目
- 第6章 决策树和决策规则
- 6.1 决策树
- 6.2 C4.5算法:生成决策树
- 6.3 未知属性值
- 6.4 修剪决策树
- 6.5 C4.5算法:生成决策规则
- 6.6 CART算法和Gini指标
- 6.7 决策树和决策规则的局限性
- 6.8 复习题
- 6.9 参考书目
- 第7章 人工神经网络
- 7.1 人工神经元的模型
- 7.2 人工神经网络的结构
- 7.3 学习过程
- 7.4 使用ANN完成的学习任务
- 7.4.1 模式联想
- 7.4.2 模式识别
- 7.5 多层感知机
- 7.6 竞争网络和竞争学习
- 7.7 SoM
- 7.8 复习题
- 7.9 参考书目
- 第8章 集成学习
- 8.1 集成学习方法论
- 8.2 多学习器组合方案
- 8.3 bagging和boosting
- 8.4 AdaBoost算法
- 8.5 复习题
- 8.6 参考书目
- 第9章 聚类分析
- 9.1 聚类的概念
- 9.2 相似度的度量
- 9.3 凝聚层次聚类
- 9.4 分区聚类
- 9.5 增量聚类
- 9.6 DBSCAN箅法
- 9.7 BIRCH算法
- 9.8 聚类验证
- 9.9 复习题
- 9.10 参考书目
- 第10章 关联规则
- 10.1 购物篮分析
- 10.2 Apriori算法
- 10.3 从频繁项集中得到关联规则
- 10.4 提高Apriori算法的效率
- 10.5 FP增长方法
- 10.6 关联分类方法
- 10.7 多维关联规则挖掘
- 10.8 复习题
- 10.9 参考书目
- 第11章 Web挖掘和文本挖掘
- 11.1Web挖掘
- 11.2 Web内容、结构与使用挖掘
- 11.3 HITS和LOGSOM算法
- 11.4 挖掘路径遍历模式
- 11.5 PageRank算法
- 11.6 文本挖掘
- 11.7 潜在语义分析
- 11.8 复习题
- 11.9 参考书目
- 第12章 数据挖掘高级技术
- 12.1 图挖掘
- ……
- 第13章 遗传算法
- 第14章 模糊集和模糊逻辑
- 第15章 可视化方法
- 附录A 数据挖掘工具
- 附录B 数据挖掘应用