当前位置:主页 > 计算机电子书 > 数据库 > 数据分析下载
数据挖掘与分析:概念与算法

数据挖掘与分析:概念与算法 PDF 完整影印版

  • 更新:2019-12-24
  • 大小:78.9 MB
  • 类别:数据分析
  • 作者:穆罕默德·扎基
  • 出版:人民邮电出版社
  • 格式:PDF

  • 资源介绍
  • 相关推荐

● 数据挖据与分析的入门书,针对初学者阐述所有关键概念,包括探索性数据分析、频繁模式挖掘、聚类和分类。 ● 兼顾前沿话题,例如核方法、高维数据分析、复杂图和网络等。 ● 提供算法对应的开源实现方法。 ● 每章均有丰富示例和练习,帮助读者理解和巩固相关主题。 ● 配备丰富教辅资源,包括课程幻灯片、教学视频、数据集等
本书是专注于数据挖掘与分析的基本算法的入门图书,内容分为数据分析基础、频繁模式挖掘、聚类和分类四个部分,每一部分的各个章节兼顾基础知识和前沿话题,例如核方法、高维数据分析、复杂图和网络等。每一章*后均附有参考书目和习题。

目录

  • 第1章 数据挖掘与分析 1
  • 1.1 数据矩阵 1
  • 1.2 属性 2
  • 1.3 数据的几何和代数描述 3
  • 1.3.1 距离和角度 5
  • 1.3.2 均值与总方差 8
  • 1.3.3 正交投影 9
  • 1.3.4 线性无关与维数 10
  • 1.4 数据:概率观点 12
  • 1.4.1 二元随机变量 17
  • 1.4.2 多元随机变量 20
  • 1.4.3 随机抽样和统计量 21
  • 1.5 数据挖掘 22
  • 1.5.1 探索性数据分析 23
  • 1.5.2 频繁模式挖掘 24
  • 1.5.3 聚类 24
  • 1.5.4 分类 25
  • 1.6 补充阅读 26
  • 1.7 习题 26
  • 第一部分 数据分析基础
  • 第2章 数值属性 28
  • 2.1 一元变量分析 28
  • 2.1.1 数据居中度度量 29
  • 2.1.2 数据离散度度量 32
  • 2.2 二元变量分析 35
  • 2.2.1 位置和离散度的度量 36
  • 2.2.2 相关性度量 37
  • 2.3 多元变量分析 40
  • 2.4 数据规范化 44
  • 2.5 正态分布 46
  • 2.5.1 一元正态分布 46
  • 2.5.2 多元正态分布 47
  • 2.6 补充阅读 50
  • 2.7 习题 51
  • 第3章 类别型属性 53
  • 3.1 一元分析 53
  • 3.1.1 伯努利变量(Bernoulli variable) 53
  • 3.1.2 多元伯努利变量 55
  • 3.2 二元分析 61
  • 3.3 多元分析 69
  • 3.4 距离和角度 74
  • 3.5 离散化 75
  • 3.6 补充阅读 77
  • 3.7 习题 78
  • 第4章 图数据 79
  • 4.1 图的概念 79
  • 4.2 拓扑属性 83
  • 4.3 中心度分析 86
  • 4.3.1 基本中心度 86
  • 4.3.2 Web中心度 88
  • 4.4 图的模型 96
  • 4.4.1 Erd s-Rényi随机图模型 98
  • 4.4.2 Watts-Strogatz小世界图模型 101
  • 4.4.3 Barabási-Albert无标度模型 104
  • 4.5 补充阅读 111
  • 4.6 习题 112
  • 第5章 核方法 114
  • 5.1 核矩阵 117
  • 5.1.1 再生核映射 118
  • 5.1.2 Mercer核映射 120
  • 5.2 向量核 122
  • 5.3 特征空间中的基本核操作 126
  • 5.4 复杂对象的核 132
  • 5.4.1 字符串的谱核 132
  • 5.4.2 图节点的扩散核 133
  • 5.5 补充阅读 137
  • 5.6 习题 137
  • 第6章 高维数据 139
  • 6.1 高维对象 139
  • 6.2 高维体积 141
  • 6.3 超立方体的内接超球面 143
  • 6.4 薄超球面壳的体积 144
  • 6.5 超空间的对角线 145
  • 6.6 多元正态的密度 146
  • 6.7 附录:球面体积的推导 149
  • 6.8 补充阅读 153
  • 6.9 习题 153
  • 第7章 降维 156
  • 7.1 背景知识 156
  • 7.2 主成分分析 160
  • 7.2.1 最优线近似 160
  • 7.2.2 最优二维近似 163
  • 7.2.3 最优r维近似 167
  • 7.2.4 主成分分析的几何意义 170
  • 7.3 核主成分分析 172
  • 7.4 奇异值分解 178
  • 7.4.1 奇异值分解的几何意义 179
  • 7.4.2 奇异值分解和主成分分析之间的联系 180
  • 7.5 补充阅读 182
  • 7.6 习题 182
  • 第二部分 频繁模式挖掘
  • 第8章 项集挖掘 186
  • 8.1 频繁项集和关联规则 186
  • 8.2 频繁项集挖掘算法 189
  • 8.2.1 逐层的方法:Apriori算法 191
  • 8.2.2 事务标识符集的交集方法:Eclat算法 193
  • 8.2.3 频繁模式树方法:FPGrowth算法 197
  • 8.3 生成关联规则 201
  • 8.4 补充阅读 203
  • 8.5 习题 203
  • 第9章 项集概述 208
  • 9.1 最大频繁项集和闭频繁项集 208
  • 9.2 挖掘最大频繁项集:GenMax算法 211
  • 9.3 挖掘闭频繁项集:Charm算法 213
  • 9.4 非可导项集 215
  • 9.5 补充阅读 220
  • 9.6 习题 221
  • 第10章 序列挖掘 223
  • 10.1 频繁序列 223
  • 10.2 挖掘频繁序列 224
  • 10.2.1 逐层挖掘:GSP 225
  • 10.2.2 垂直序列挖掘:Spade 226
  • 10.2.3 基于投影的序列挖掘:PrefixSpan 228
  • 10.3 基于后缀树的子串挖掘 230
  • 10.3.1 后缀树 230
  • 10.3.2 Ukkonen线性时间算法 233
  • 10.4 补充阅读 238
  • 10.5 习题 239
  • 第11章 图模式挖掘 242
  • 11.1 同形和支撑 242
  • 11.2 候选生成 245
  • 11.3 gSpan算法 249
  • 11.3.1 扩展和支撑计算 250
  • 11.3.2 权威性测试 255
  • 11.4 补充阅读 256
  • 11.5 习题 257
  • 第12章 模式与规则评估 260
  • 12.1 规则和模式评估的度量 260
  • 12.1.1 规则评估度量 260
  • 12.1.2 模式评估度量 268
  • 12.1.3 比较多条规则和模式 270
  • 12.2 显著性检验和置信区间 273
  • 12.2.1 产生式规则的费希尔精确检验 273
  • 12.2.2 显著性的置换检验 277
  • 12.2.3 置信区间内的自助抽样 282
  • 12.3 补充阅读 284
  • 12.4 习题 285
  • 第三部分 聚类
  • 第13章 基于代表的聚类 288
  • 13.1 K-means 算法 288
  • 13.2 核K-means 292
  • 13.3 期望最大聚类 295
  • 13.3.1 一维中的EM 297
  • 13.3.2 d维中的EM 300
  • 13.3.3 极大似然估计 305
  • 13.3.4 EM方法 309
  • 13.4 补充阅读 311
  • 13.5 习题 312
  • 第14章 层次式聚类 315
  • 14.1 预备知识 315
  • 14.2 聚合型层次式聚类 317
  • 14.2.1 簇间距离 317
  • 14.2.2 更新距离矩阵 321
  • 14.2.3 计算复杂度 322
  • 14.3 补充阅读 322
  • 14.4 习题 323
  • 第15章 基于密度的聚类 325
  • 15.1 DBSCAN 算法 325
  • 15.2 核密度估计 328
  • 15.2.1 一元密度估计 328
  • 15.2.2 多元密度估计 331
  • 15.2.3 最近邻密度估计 333
  • 15.3 基于密度的聚类:DENCLUE 333
  • 15.4 补充阅读 338
  • 15.5 习题 339
  • 第16章 谱聚类和图聚类 341
  • 16.1 图和矩阵 341
  • 16.2 基于图的割的聚类 347
  • 16.2.1 聚类目标函数:比例割与归—割 349
  • 16.2.2 谱聚类算法 351
  • 16.2.3 最大化目标:平均割与模块度 354
  • 16.3 马尔可夫聚类 360
  • 16.4 补充阅读 366
  • 16.5 习题 367
  • 第17章 聚类的验证 368
  • 17.1 外部验证度量 368
  • 17.1.1 基于匹配的度量 369
  • 17.1.2 基于熵的度量 372
  • 17.1.3 成对度量 375
  • 17.1.4 关联度量 378
  • 17.2 内部度量 381
  • 17.3 相对度量 388
  • 17.3.1 分簇稳定性 394
  • 17.3.2 聚类趋向性 396
  • 17.4 补充阅读 400
  • 17.5 习题 401
  • 第四部分 分类
  • 第18章 基于概率的分类 404
  • 18.1 贝叶斯分类器 404
  • 18.1.1 估计先验概率 404
  • 18.1.2 估计似然 405
  • 18.2 朴素贝叶斯分类器 409
  • 18.3 K最近邻分类器 412
  • 18.4 补充阅读 414
  • 18.5 习题 415
  • 第19章 决策树分类器 416
  • 19.1 决策树 417
  • 19.2 决策树算法 419
  • 19.2.1 分割点评估度量 420
  • 19.2.2 评估分割点 422
  • 19.3 补充阅读 429
  • 19.4 习题 429
  • 第20章 线性判别分析 431
  • 20.1 最优线性判别 431
  • 20.2 核判别分析 437
  • 20.3 补充阅读 443
  • 20.4 习题 443
  • 第21章 支持向量机 445
  • 21.1 支持向量和间隔 445
  • 21.2 SVM:线性可分的情况 450
  • 21.3 软间隔SVM:线性不可分的情况 454
  • 21.3.1 铰链误损 455
  • 21.3.2 二次误损 458
  • 21.4 核SVM:非线性情况 459
  • 21.5 SVM训练算法 462
  • 21.5.1 对偶解法:随机梯度上升 463
  • 21.5.2 原始问题解:牛顿优化 467
  • 21.6 补充阅读 473
  • 21.7 习题 473
  • 第22章 分类的评估 475
  • 22.1 分类性能度量 475
  • 22.1.1 基于列联表的度量 476
  • 22.1.2 二值分类:正类和负类 479
  • 22.1.3 ROC分析 482
  • 22.2 分类器评估 487
  • 22.2.1 K折交叉验证 487
  • 22.2.2 自助抽样 488
  • 22.2.3 置信区间 489
  • 22.2.4 分类器比较:配对t检验 493
  • 22.3 偏置-方差分解 495
  • 22.4 补充阅读 503
  • 22.5 习题 504

资源下载

资源下载地址1:https://pan.baidu.com/s/15R6MtX_t0q9IPpLnpzbOkg

相关资源

网友留言