当前位置:主页 > 课后答案 > 数据挖掘习题答案
数据挖掘导论

《数据挖掘导论》课后习题答案

  • 更新:2021-05-28
  • 大小:10.6 MB
  • 类别:数据挖掘
  • 作者:Pang-Ning.Tan、Michae
  • 出版:人民邮电出版社
  • 格式:PDF

  • 资源介绍
  • 相关推荐

与许多其他同类图书不同,本书将重点放在如何用数据挖掘知识解决各种实际问题。

只要求具备很少的预备知识——不需要数据库背景,只需要很少的统计学或数学背景知识。

书中包含大量的图表、综合示例和丰富的习题,并且使用示例、关键算法的简洁描述和习题,尽可能直接地聚焦于数据挖掘的主要概念。

教辅内容极为丰富,包括课程幻灯片、学生课题建议、数据挖掘资源(如数据挖掘算法和数据集)、联机指南(使用实际的数据集和数据分析软件,为本书介绍的部分数据挖掘技术提供例子讲解)。

向采用本书作为教材的教师提供习题解答。

目录

  • 第1章 绪论    1
  • 1.1 什么是数据挖掘    2
  • 1.2 数据挖掘要解决的问题    2
  • 1.3 数据挖掘的起源    3
  • 1.4 数据挖掘任务    4
  • 1.5 本书的内容与组织    7
  • 文献注释    7
  • 参考文献    8
  • 习题    10
  • 第2章 数据    13
  • 2.1 数据类型    14
  • 2.1.1 属性与度量    15
  • 2.1.2 数据集的类型    18
  • 2.2 数据质量    22
  • 2.2.1 测量和数据收集问题    22
  • 2.2.2 关于应用的问题    26
  • 2.3 数据预处理    27
  • 2.3.1 聚集    27
  • 2.3.2 抽样    28
  • 2.3.3 维归约    30
  • 2.3.4 特征子集选择    31
  • 2.3.5 特征创建    33
  • 2.3.6 离散化和二元化    34
  • 2.3.7 变量变换    38
  • 2.4 相似性和相异性的度量    38
  • 2.4.1 基础    39
  • 2.4.2 简单属性之间的相似度和相异度    40
  • 2.4.3 数据对象之间的相异度    41
  • 2.4.4 数据对象之间的相似度    43
  • 2.4.5 邻近性度量的例子    43
  • 2.4.6 邻近度计算问题    48
  • 2.4.7 选取正确的邻近性度量    50
  • 文献注释    50
  • 参考文献    52
  • 习题    53
  • 第3章 探索数据    59
  • 3.1 鸢尾花数据集    59
  • 3.2 汇总统计    60
  • 3.2.1 频率和众数    60
  • 3.2.2 百分位数    61
  • 3.2.3 位置度量:均值和中位数    61
  • 3.2.4 散布度量:极差和方差    62
  • 3.2.5 多元汇总统计    63
  • 3.2.6 汇总数据的其他方法    64
  • 3.3 可视化    64
  • 3.3.1 可视化的动机    64
  • 3.3.2 一般概念    65
  • 3.3.3 技术    67
  • 3.3.4 可视化高维数据    75
  • 3.3.5 注意事项    79
  • 3.4 OLAP和多维数据分析    79
  • 3.4.1 用多维数组表示鸢尾花数据    80
  • 3.4.2 多维数据:一般情况    81
  • 3.4.3 分析多维数据    82
  • 3.4.4 关于多维数据分析的最后评述    84
  • 文献注释    84
  • 参考文献    85
  • 习题    86
  • 第4章 分类:基本概念、决策树与模型评估    89
  • 4.1 预备知识    89
  • 4.2 解决分类问题的一般方法    90
  • 4.3 决策树归纳    92
  • 4.3.1 决策树的工作原理    92
  • 4.3.2 如何建立决策树    93
  • 4.3.3 表示属性测试条件的方法    95
  • 4.3.4 选择最佳划分的度量    96
  • 4.3.5 决策树归纳算法    101
  • 4.3.6 例子:Web 机器人检测    102
  • 4.3.7 决策树归纳的特点    103
  • 4.4 模型的过分拟合    106
  • 4.4.1 噪声导致的过分拟合    107
  • 4.4.2 缺乏代表性样本导致的过分拟合    109
  • 4.4.3 过分拟合与多重比较过程    109
  • 4.4.4 泛化误差估计    110
  • 4.4.5 处理决策树归纳中的过分拟合    113
  • 4.5 评估分类器的性能    114
  • 4.5.1 保持方法    114
  • 4.5.2 随机二次抽样    115
  • 4.5.3 交叉验证    115
  • 4.5.4 自助法    115
  • 4.6 比较分类器的方法    116
  • 4.6.1 估计准确度的置信区间    116
  • 4.6.2 比较两个模型的性能    117
  • 4.6.3 比较两种分类法的性能    118
  • 文献注释    118
  • 参考文献    120
  • 习题    122
  • 第5章 分类:其他技术    127
  • 5.1 基于规则的分类器    127
  • 5.1.1 基于规则的分类器的工作原理    128
  • 5.1.2 规则的排序方案    129
  • 5.1.3 如何建立基于规则的分类器    130
  • 5.1.4 规则提取的直接方法    130
  • 5.1.5 规则提取的间接方法    135
  • 5.1.6 基于规则的分类器的特征    136
  • 5.2 最近邻分类器    137
  • 5.2.1 算法    138
  • 5.2.2 最近邻分类器的特征    138
  • 5.3 贝叶斯分类器    139
  • 5.3.1 贝叶斯定理    139
  • 5.3.2 贝叶斯定理在分类中的应用    140
  • 5.3.3 朴素贝叶斯分类器    141
  • 5.3.4 贝叶斯误差率    145
  • 5.3.5 贝叶斯信念网络    147
  • 5.4 人工神经网络    150
  • 5.4.1 感知器    151
  • 5.4.2 多层人工神经网络    153
  • 5.4.3 人工神经网络的特点    155
  • 5.5 支持向量机    156
  • 5.5.1 最大边缘超平面    156
  • 5.5.2 线性支持向量机:可分情况    157
  • 5.5.3 线性支持向量机:不可分情况    162
  • 5.5.4 非线性支持向量机    164
  • 5.5.5 支持向量机的特征    168
  • 5.6 组合方法    168
  • 5.6.1 组合方法的基本原理    168
  • 5.6.2 构建组合分类器的方法    169
  • 5.6.3 偏倚—方差分解    171
  • 5.6.4 装袋    173
  • 5.6.5 提升    175
  • 5.6.6 随机森林    178
  • 5.6.7 组合方法的实验比较    179
  • 5.7 不平衡类问题    180
  • 5.7.1 可选度量    180
  • 5.7.2 接受者操作特征曲线    182
  • 5.7.3 代价敏感学习    184
  • 5.7.4 基于抽样的方法    186
  • 5.8 多类问题    187
  • 文献注释    189
  • 参考文献    190
  • 习题    193
  • 第6章 关联分析:基本概念和算法    201
  • 6.1 问题定义    202
  • 6.2 频繁项集的产生    204
  • 6.2.1 先验原理    205
  • 6.2.2 Apriori算法的频繁项集产生    206
  • 6.2.3 候选的产生与剪枝    208
  • 6.2.4 支持度计数    210
  • 6.2.5 计算复杂度    213
  • 6.3 规则产生    215
  • 6.3.1 基于置信度的剪枝    215
  • 6.3.2 Apriori算法中规则的产生    215
  • 6.3.3 例:美国国会投票记录    217
  • 6.4 频繁项集的紧凑表示    217
  • 6.4.1 极大频繁项集    217
  • 6.4.2 闭频繁项集    219
  • 6.5 产生频繁项集的其他方法    221
  • 6.6 FP增长算法    223
  • 6.6.1 FP树表示法    224
  • 6.6.2 FP增长算法的频繁项集产生    225
  • 6.7 关联模式的评估    228
  • 6.7.1 兴趣度的客观度量    228
  • 6.7.2 多个二元变量的度量    235
  • 6.7.3 辛普森悖论    236
  • 6.8 倾斜支持度分布的影响    237
  • 文献注释    240
  • 参考文献    244
  • 习题    250
  • 第7章 关联分析:高级概念    259
  • 7.1 处理分类属性    259
  • 7.2 处理连续属性    261
  • 7.2.1 基于离散化的方法    261
  • 7.2.2 基于统计学的方法    263
  • 7.2.3 非离散化方法    265
  • 7.3 处理概念分层    266
  • 7.4 序列模式    267
  • 7.4.1 问题描述    267
  • 7.4.2 序列模式发现    269
  • 7.4.3 时限约束    271
  • 7.4.4 可选计数方案    274
  • 7.5 子图模式    275
  • 7.5.1 图与子图    276
  • 7.5.2 频繁子图挖掘    277
  • 7.5.3 类Apriori方法    278
  • 7.5.4 候选产生    279
  • 7.5.5 候选剪枝    282
  • 7.5.6 支持度计数    285
  • 7.6 非频繁模式    285
  • 7.6.1 负模式    285
  • 7.6.2 负相关模式    286
  • 7.6.3 非频繁模式、负模式和负相关模式比较    287
  • 7.6.4 挖掘有趣的非频繁模式的技术    288
  • 7.6.5 基于挖掘负模式的技术    288
  • 7.6.6 基于支持度期望的技术    290
  • 文献注释    292
  • 参考文献    293
  • 习题    295
  • 第8章 聚类分析:基本概念和算法    305
  • 8.1 概述    306
  • 8.1.1 什么是聚类分析    306
  • 8.1.2 不同的聚类类型    307
  • 8.1.3 不同的簇类型    308
  • 8.2 K均值    310
  • 8.2.1 基本K均值算法    310
  • 8.2.2 K均值:附加的问题    315
  • 8.2.3 二分K均值    316
  • 8.2.4 K均值和不同的簇类型    317
  • 8.2.5 优点与缺点    318
  • 8.2.6 K均值作为优化问题    319
  • 8.3 凝聚层次聚类    320
  • 8.3.1 基本凝聚层次聚类算法    321
  • 8.3.2 特殊技术    322
  • 8.3.3 簇邻近度的Lance-Williams公式    325
  • 8.3.4 层次聚类的主要问题    326
  • 8.3.5 优点与缺点    327
  • 8.4 DBSCAN    327
  • 8.4.1 传统的密度:基于中心的方法    327
  • 8.4.2 DBSCAN算法    328
  • 8.4.3 优点与缺点    329
  • 8.5 簇评估    330
  • 8.5.1 概述    332
  • 8.5.2 非监督簇评估:使用凝聚度和分离度    332
  • 8.5.3 非监督簇评估:使用邻近度矩阵    336
  • 8.5.4 层次聚类的非监督评估    338
  • 8.5.5 确定正确的簇个数    339
  • 8.5.6 聚类趋势    339
  • 8.5.7 簇有效性的监督度量    340
  • 8.5.8 评估簇有效性度量的显著性    343
  • 文献注释    344
  • 参考文献    345
  • 习题    347
  • 第9章 聚类分析:其他问题与算法    355
  • 9.1 数据、簇和聚类算法的特性    355
  • 9.1.1 例子:比较K均值和DBSCAN    355
  • 9.1.2 数据特性    356
  • 9.1.3 簇特性    357
  • 9.1.4 聚类算法的一般特性    358
  • 9.2 基于原型的聚类    359
  • 9.2.1 模糊聚类    359
  • 9.2.2 使用混合模型的聚类    362
  • 9.2.3 自组织映射    369
  • 9.3 基于密度的聚类    372
  • 9.3.1 基于网格的聚类    372
  • 9.3.2 子空间聚类    374
  • 9.3.3 DENCLUE:基于密度聚类的一种基于核的方案    377
  • 9.4 基于图的聚类    379
  • 9.4.1 稀疏化    379
  • 9.4.2 最小生成树聚类    380
  • 9.4.3 OPOSSUM:使用METIS的稀疏相似度最优划分    381
  • 9.4.4 Chameleon:使用动态建模的层次聚类    381
  • 9.4.5 共享最近邻相似度    385
  • 9.4.6 Jarvis-Patrick聚类算法    387
  • 9.4.7 SNN密度    388
  • 9.4.8 基于SNN密度的聚类    389
  • 9.5 可伸缩的聚类算法    390
  • 9.5.1 可伸缩:一般问题和方法    391
  • 9.5.2 BIRCH    392
  • 9.5.3 CURE    393
  • 9.6 使用哪种聚类算法    395
  • 文献注释    397
  • 参考文献    398
  • 习题    400
  • 第10章 异常检测    403
  • 10.1 预备知识    404
  • 10.1.1 异常的成因    404
  • 10.1.2 异常检测方法    404
  • 10.1.3 类标号的使用    405
  • 10.1.4 问题    405
  • 10.2 统计方法    406
  • 10.2.1 检测一元正态分布中的离群点    407
  • 10.2.2 多元正态分布的离群点    408
  • 10.2.3 异常检测的混合模型方法    410
  • 10.2.4 优点与缺点    411
  • 10.3 基于邻近度的离群点检测    411
  • 10.4 基于密度的离群点检测    412
  • 10.4.1 使用相对密度的离群点检测    413
  • 10.4.2 优点与缺点    414
  • 10.5 基于聚类的技术    414
  • 10.5.1 评估对象属于簇的程度    415
  • 10.5.2 离群点对初始聚类的影响    416
  • 10.5.3 使用簇的个数    416
  • 10.5.4 优点与缺点    416
  • 文献注释    417
  • 参考文献    418
  • 习题    420
  • 附录A 线性代数    423
  • 附录B 维归约    433
  • 附录C 概率统计    445
  • 附录D 回归    451
  • 附录E 优化    457

资源下载

资源下载地址1:https://pan.baidu.com/s/1M-jSkIpvdWI8XzFOWy-baQ

相关资源

网友留言