随着数据集规模和复杂度的持续上升,分析员必须利用更高级的软件工具来执行间接的、自动的智能化数据分析。
《数据挖掘:概念、模型、方法和算法(第2版)》介绍了通过分析高维数据空间中的海量原始数据来提取用于决策的新信息的尖端技术和方法。《数据挖掘:概念、模型、方法和算法(第2版)》开篇阐述数据挖掘原理,此后在示例的引导下详细讲解起源于统计学、机器学习、神经网络、模糊逻辑和演化计算等学科的具有代表性的、最前沿的挖掘方法和算法。本书还着重描述如何恰当地选择方法和数据分析软件并合理地调整参数。每章末尾附有复习题。
《数据挖掘:概念、模型、方法和算法(第2版)》主要用作计算机科学、计算机工程和计算机信息系统专业的研究生数据挖掘教材,高年级本科生或具备同等教育背景的读者也完全可以理解本书的所有主题。
目录
- 第1章数据挖掘的概念
- 1.1概述
- 1.2数据挖掘的起源
- 1.3数据挖掘过程
- 1.4大型数据集
- 1.5数据仓库
- 1.6数据挖掘的商业方面:为什数据挖掘项目会失败
- 1.7本书结构安排
- 1.8复习题
- 1.9参考书目
- 第2章数据准备
- 2.1原始数据的表述
- 2.2原始数据的特性
- 2.3原始数据的转换
- 2.3.1标准化
- 2.3.2数据平整
- 2.3.3差值和比率
- 2.4丢失数据
- 2.5时间相关数据
- 2.6异常点分析
- 2.7复习题
- 2.8参考书目
- 第3章数据归约
- 3.1大型数据集的维度
- 3.2特征归约
- 3.2.1特征选择
- 3.2.2特征提取
- 3.3 relief算法
- 3.4特征排列的熵度量
- 3.5主成分分析
- 3.6值归约
- 3.7特征离散化:chimerge技术
- 3.8案例归约
- 3.9复习题
- 3.10参考书目
- 第4章从数据中学习
- 4.1学习机器
- 4.2统计学习原理
- 4.3学习方法的类型
- 4.4常见的学习任务
- 4.5支持向量机
- 4.6 knn:最近邻分类器
- 4.7模型选择与泛化
- 4.8模型的评估
- 4.990%准确的情形
- 4.9.1保险欺诈检测
- 4.9.2改进心脏护理
- 4.10复习题
- 4.11参考书目
- 第5章统计方法
- 5.1统计推断
- 5.2评测数据集的差异
- 5.3贝叶斯定理
- 5.4预测回归
- 5.5方差分析
- 5.6对数回归
- 5.7对数—线性模型
- 5.8线性判别分析
- 5.9复习题
- 5.10参考书目
- 第6章决策树和决策规则
- 6.1决策树
- 6.2 c4.5算法:生成决策树
- 6.3未知属性值
- 6.4修剪决策树
- 6.5 c4.5算法:生成决策规则
- 6.6 cart算法和gini指标
- 6.7决策树和决策规则的局限性
- 6.8复习题
- 6.9参考书目
- 第7章人工神经网络
- 7.1人工神经元的模型
- 7.2人工神经网络的结构
- 7.3学习过程
- 7.4使用ann完成的学习任务
- 7.4.1模式联想
- 7.4.2模式识别
- 7.5多层感知机
- 7.6竞争网络和竞争学习
- 7.7 som
- 7.8复习题
- 7.9参考书目
- 第8章集成学习
- 8.1集成学习方法论
- 8.2多学习器组合方案
- 8.3 bagging和boosting
- 8.4 adaboost算法
- 8.5复习题
- 8.6参考书目
- 第9章聚类分析
- 9.1聚类的概念
- 9.2相似度的度量
- 9.3凝聚层次聚类
- 9.4分区聚类
- 9.5增量聚类
- 9.6 dbscan算法
- 9.7 birch算法
- 9.8聚类验证
- 9.9复习题
- 9.10参考书目
- 第10章关联规则
- 10.1购物篮分析
- 10.2 apriori算法
- 10.3从频繁项集中得到
- 关联规则
- 10.4提高apriori算法的效率
- 10.5 fp增长方法
- 10.6关联分类方法
- 10.7多维关联规则挖掘
- 10.8复习题
- 10.9参考书目
- 第11章web挖掘和文本挖掘
- 11.1web挖掘
- 11.2web内容、结构与
- 使用挖掘
- 11.3hits和logsom算法
- 11.4挖掘路径遍历模式
- 11.5pagerank算法
- 11.6文本挖掘
- 11.7潜在语义分析
- 11.8复习题
- 11.9参考书目
- 第12章数据挖掘高级技术
- 12.1图挖掘
- 12.2时态数据挖掘
- 12.2.1时态数据表示
- 12.2.2序列之间的相似性度量
- 12.2.3时态数据模型
- 12.2.4数据挖掘
- 12.3空间数据挖掘(sdm)
- 12.4分布式数据挖掘(ddm)
- 12.5关联并不意味着存在因果关系
- 12.6数据挖掘的隐私、安全及法律问题
- 12.7复习题
- 12.8参考书目
- 第13章遗传算法
- 13.1遗传算法的基本原理
- 13.2用遗传算法进行优化
- 13.2.1编码方案和初始化
- 13.2.2适合度估计
- 13.2.3选择
- 13.2.4交叉
- 13.2.5突变
- 13.3遗传算法的简单例证
- 13.3.1表述
- 13.3.2初始群体
- 13.3.3评价
- 13.3.4交替
- 13.3.5遗传算子
- 13.3.6评价(第二次迭代)
- 13.4图式
- 13.5旅行推销员问题
- 13.6使用遗传算法的机器学习
- 13.6.1规则交换
- 13.6.2规则概化
- 13.6.3规则特化
- 13.6.4规则分割
- 13.7遗传算法用于聚类
- 13.8复习题
- 13.9参考书目
- 第14章模糊集和模糊逻辑
- 14.1模糊集
- 14.2模糊集的运算
- 14.3扩展原理和模糊关系
- 14.4模糊逻辑和模糊推理系统
- 14.5多因子评价
- 14.6从数据中提取模糊模型
- 14.7数据挖掘和模糊集
- 14.8复习题
- 14.9参考书目
- 第15章可视化方法
- 15.1感知和可视化
- 15.2科学可视化和信息可视化
- 15.3平行坐标
- 15.4放射性可视化
- 15.5使用自组织映射进行可视化
- 15.6数据挖掘的可视化系统
- 15.7复习题
- 15.8参考书目
- 附录a数据挖掘工具
- 附录b数据挖掘应用
- 特别提示:本资源需要会员组权限,普通注册用户无法下载.