● 数据挖据与分析的入门书,针对初学者阐述所有关键概念,包括探索性数据分析、频繁模式挖掘、聚类和分类。 ● 兼顾前沿话题,例如核方法、高维数据分析、复杂图和网络等。 ● 提供算法对应的开源实现方法。 ● 每章均有丰富示例和练习,帮助读者理解和巩固相关主题。 ● 配备丰富教辅资源,包括课程幻灯片、教学视频、数据集等
本书是专注于数据挖掘与分析的基本算法的入门图书,内容分为数据分析基础、频繁模式挖掘、聚类和分类四个部分,每一部分的各个章节兼顾基础知识和前沿话题,例如核方法、高维数据分析、复杂图和网络等。每一章*后均附有参考书目和习题。
目录
- 第1章 数据挖掘与分析 1
- 1.1 数据矩阵 1
- 1.2 属性 2
- 1.3 数据的几何和代数描述 3
- 1.3.1 距离和角度 5
- 1.3.2 均值与总方差 8
- 1.3.3 正交投影 9
- 1.3.4 线性无关与维数 10
- 1.4 数据:概率观点 12
- 1.4.1 二元随机变量 17
- 1.4.2 多元随机变量 20
- 1.4.3 随机抽样和统计量 21
- 1.5 数据挖掘 22
- 1.5.1 探索性数据分析 23
- 1.5.2 频繁模式挖掘 24
- 1.5.3 聚类 24
- 1.5.4 分类 25
- 1.6 补充阅读 26
- 1.7 习题 26
- 第一部分 数据分析基础
- 第2章 数值属性 28
- 2.1 一元变量分析 28
- 2.1.1 数据居中度度量 29
- 2.1.2 数据离散度度量 32
- 2.2 二元变量分析 35
- 2.2.1 位置和离散度的度量 36
- 2.2.2 相关性度量 37
- 2.3 多元变量分析 40
- 2.4 数据规范化 44
- 2.5 正态分布 46
- 2.5.1 一元正态分布 46
- 2.5.2 多元正态分布 47
- 2.6 补充阅读 50
- 2.7 习题 51
- 第3章 类别型属性 53
- 3.1 一元分析 53
- 3.1.1 伯努利变量(Bernoulli variable) 53
- 3.1.2 多元伯努利变量 55
- 3.2 二元分析 61
- 3.3 多元分析 69
- 3.4 距离和角度 74
- 3.5 离散化 75
- 3.6 补充阅读 77
- 3.7 习题 78
- 第4章 图数据 79
- 4.1 图的概念 79
- 4.2 拓扑属性 83
- 4.3 中心度分析 86
- 4.3.1 基本中心度 86
- 4.3.2 Web中心度 88
- 4.4 图的模型 96
- 4.4.1 Erd s-Rényi随机图模型 98
- 4.4.2 Watts-Strogatz小世界图模型 101
- 4.4.3 Barabási-Albert无标度模型 104
- 4.5 补充阅读 111
- 4.6 习题 112
- 第5章 核方法 114
- 5.1 核矩阵 117
- 5.1.1 再生核映射 118
- 5.1.2 Mercer核映射 120
- 5.2 向量核 122
- 5.3 特征空间中的基本核操作 126
- 5.4 复杂对象的核 132
- 5.4.1 字符串的谱核 132
- 5.4.2 图节点的扩散核 133
- 5.5 补充阅读 137
- 5.6 习题 137
- 第6章 高维数据 139
- 6.1 高维对象 139
- 6.2 高维体积 141
- 6.3 超立方体的内接超球面 143
- 6.4 薄超球面壳的体积 144
- 6.5 超空间的对角线 145
- 6.6 多元正态的密度 146
- 6.7 附录:球面体积的推导 149
- 6.8 补充阅读 153
- 6.9 习题 153
- 第7章 降维 156
- 7.1 背景知识 156
- 7.2 主成分分析 160
- 7.2.1 最优线近似 160
- 7.2.2 最优二维近似 163
- 7.2.3 最优r维近似 167
- 7.2.4 主成分分析的几何意义 170
- 7.3 核主成分分析 172
- 7.4 奇异值分解 178
- 7.4.1 奇异值分解的几何意义 179
- 7.4.2 奇异值分解和主成分分析之间的联系 180
- 7.5 补充阅读 182
- 7.6 习题 182
- 第二部分 频繁模式挖掘
- 第8章 项集挖掘 186
- 8.1 频繁项集和关联规则 186
- 8.2 频繁项集挖掘算法 189
- 8.2.1 逐层的方法:Apriori算法 191
- 8.2.2 事务标识符集的交集方法:Eclat算法 193
- 8.2.3 频繁模式树方法:FPGrowth算法 197
- 8.3 生成关联规则 201
- 8.4 补充阅读 203
- 8.5 习题 203
- 第9章 项集概述 208
- 9.1 最大频繁项集和闭频繁项集 208
- 9.2 挖掘最大频繁项集:GenMax算法 211
- 9.3 挖掘闭频繁项集:Charm算法 213
- 9.4 非可导项集 215
- 9.5 补充阅读 220
- 9.6 习题 221
- 第10章 序列挖掘 223
- 10.1 频繁序列 223
- 10.2 挖掘频繁序列 224
- 10.2.1 逐层挖掘:GSP 225
- 10.2.2 垂直序列挖掘:Spade 226
- 10.2.3 基于投影的序列挖掘:PrefixSpan 228
- 10.3 基于后缀树的子串挖掘 230
- 10.3.1 后缀树 230
- 10.3.2 Ukkonen线性时间算法 233
- 10.4 补充阅读 238
- 10.5 习题 239
- 第11章 图模式挖掘 242
- 11.1 同形和支撑 242
- 11.2 候选生成 245
- 11.3 gSpan算法 249
- 11.3.1 扩展和支撑计算 250
- 11.3.2 权威性测试 255
- 11.4 补充阅读 256
- 11.5 习题 257
- 第12章 模式与规则评估 260
- 12.1 规则和模式评估的度量 260
- 12.1.1 规则评估度量 260
- 12.1.2 模式评估度量 268
- 12.1.3 比较多条规则和模式 270
- 12.2 显著性检验和置信区间 273
- 12.2.1 产生式规则的费希尔精确检验 273
- 12.2.2 显著性的置换检验 277
- 12.2.3 置信区间内的自助抽样 282
- 12.3 补充阅读 284
- 12.4 习题 285
- 第三部分 聚类
- 第13章 基于代表的聚类 288
- 13.1 K-means 算法 288
- 13.2 核K-means 292
- 13.3 期望最大聚类 295
- 13.3.1 一维中的EM 297
- 13.3.2 d维中的EM 300
- 13.3.3 极大似然估计 305
- 13.3.4 EM方法 309
- 13.4 补充阅读 311
- 13.5 习题 312
- 第14章 层次式聚类 315
- 14.1 预备知识 315
- 14.2 聚合型层次式聚类 317
- 14.2.1 簇间距离 317
- 14.2.2 更新距离矩阵 321
- 14.2.3 计算复杂度 322
- 14.3 补充阅读 322
- 14.4 习题 323
- 第15章 基于密度的聚类 325
- 15.1 DBSCAN 算法 325
- 15.2 核密度估计 328
- 15.2.1 一元密度估计 328
- 15.2.2 多元密度估计 331
- 15.2.3 最近邻密度估计 333
- 15.3 基于密度的聚类:DENCLUE 333
- 15.4 补充阅读 338
- 15.5 习题 339
- 第16章 谱聚类和图聚类 341
- 16.1 图和矩阵 341
- 16.2 基于图的割的聚类 347
- 16.2.1 聚类目标函数:比例割与归—割 349
- 16.2.2 谱聚类算法 351
- 16.2.3 最大化目标:平均割与模块度 354
- 16.3 马尔可夫聚类 360
- 16.4 补充阅读 366
- 16.5 习题 367
- 第17章 聚类的验证 368
- 17.1 外部验证度量 368
- 17.1.1 基于匹配的度量 369
- 17.1.2 基于熵的度量 372
- 17.1.3 成对度量 375
- 17.1.4 关联度量 378
- 17.2 内部度量 381
- 17.3 相对度量 388
- 17.3.1 分簇稳定性 394
- 17.3.2 聚类趋向性 396
- 17.4 补充阅读 400
- 17.5 习题 401
- 第四部分 分类
- 第18章 基于概率的分类 404
- 18.1 贝叶斯分类器 404
- 18.1.1 估计先验概率 404
- 18.1.2 估计似然 405
- 18.2 朴素贝叶斯分类器 409
- 18.3 K最近邻分类器 412
- 18.4 补充阅读 414
- 18.5 习题 415
- 第19章 决策树分类器 416
- 19.1 决策树 417
- 19.2 决策树算法 419
- 19.2.1 分割点评估度量 420
- 19.2.2 评估分割点 422
- 19.3 补充阅读 429
- 19.4 习题 429
- 第20章 线性判别分析 431
- 20.1 最优线性判别 431
- 20.2 核判别分析 437
- 20.3 补充阅读 443
- 20.4 习题 443
- 第21章 支持向量机 445
- 21.1 支持向量和间隔 445
- 21.2 SVM:线性可分的情况 450
- 21.3 软间隔SVM:线性不可分的情况 454
- 21.3.1 铰链误损 455
- 21.3.2 二次误损 458
- 21.4 核SVM:非线性情况 459
- 21.5 SVM训练算法 462
- 21.5.1 对偶解法:随机梯度上升 463
- 21.5.2 原始问题解:牛顿优化 467
- 21.6 补充阅读 473
- 21.7 习题 473
- 第22章 分类的评估 475
- 22.1 分类性能度量 475
- 22.1.1 基于列联表的度量 476
- 22.1.2 二值分类:正类和负类 479
- 22.1.3 ROC分析 482
- 22.2 分类器评估 487
- 22.2.1 K折交叉验证 487
- 22.2.2 自助抽样 488
- 22.2.3 置信区间 489
- 22.2.4 分类器比较:配对t检验 493
- 22.3 偏置-方差分解 495
- 22.4 补充阅读 503
- 22.5 习题 504