本书针对数据的海量性、复杂性、高维性、模糊性和不完整性,对数据挖掘技术中的聚类分析和关联规则分析进行了系统的研究。设计与实现了基于密度和自适应密度可达聚类算法、基于簇特征的动态增量聚类算法、并行聚类算法、基于密度加权的模糊聚类算法、高唯复杂数据聚类算法、基于数据场的聚类算法、基于距离的量化关联规则和基于数据场的量化关联规则算法,给出了在矿产资源评价、遥感图像分类、矿业经济分析中的应用例证。全书共分11章,主要内容包括:绪论,基于密度和密度可达聚类分析,基于簇特征的动态增量聚类分析,并行聚类分析,基于密度加权的模糊聚类分析,高唯复杂数据聚类分析,基于数据场的聚类分析,基于距离的量化关联规则,基于数据场的量化关联规则,数据挖掘结果可视化和数据挖掘算法应用。
目录
- 1绪论1
- 1.1大数据1
- 1.1.1大数据概念1
- 1.1.2大数据特征4
- 1.2云计算与大数据挖掘5
- 1.2.1云计算5
- 1.2.2大数据挖掘6
- 1.3传统数据挖掘6
- 1.3.1数据源与挖掘任务7
- 1.3.2数据挖掘方法7
- 1.3.3数据挖掘面临问题9
- 参考文献10
- 2基于属性加权和密度聚类分析11
- 2.1聚类分析技术11
- 2.1.1数据基础11
- 2.1.2聚类分析方法16
- 2.1.3簇的类型16
- 2.2聚类算法17
- 2.2.1聚类算法分类17
- 2.2.2聚类算法特性19
- 2.2.3选用聚类算法参考因素20
- 2.2.4聚类算法面临的挑战21
- 2.3聚类算法改进23
- 2.3.1聚类算法分析23
- 2.3.2数据对象属性加权25
- 2.3.3基于属性加权K-means算法27
- 2.3.4实例验证算法28
- 2.4基于密度与对象方向聚类算法29
- 2.4.1算法的提出29
- 2.4.2DENCLUE算法30
- 2.4.3算法设计31
- 2.5CABWAD算法实现36
- 2.5.1数据结构建立36
- 2.5.2数据结构上聚类38
- 2.5.3时间和空间复杂度40
- 2.6实验分析40
- 2.6.1准确度分析41
- 2.6.2可扩展性分析43
- 参考文献44
- 3基于密度与密度可达聚类分析46
- 3.1CABWAD算法分析46
- 3.1.1算法过程分析46
- 3.1.2两个输入参数的分析47
- 3.2算法设计与分析50
- 3.2.1相关定义50
- 3.2.2CADD算法设计53
- 3.2.3算法执行过程分析53
- 3.3实验分析55
- 3.3.1不同分布形态的簇(缠绕簇)55
- 3.3.2不同密度的簇56
- 3.3.3分布在不同密度噪声中的变密度簇57
- 3.3.4复杂形态簇58
- 3.3.5算法复杂度分析59
- 参考文献60
- 4动态增量聚类分析62
- 4.1算法提出62
- 4.1.1增量聚类算法62
- 4.1.2CADD算法分析64
- 4.1.3抽样技术66
- 4.2基于密度可达的动态增量聚类算法67
- 4.2.1算法设计67
- 4.2.2算法实现69
- 4.2.3算法复杂度分析69
- 4.3基于子簇特征的增量聚类算法70
- 4.3.1相关定义70
- 4.3.2算法设计72
- 4.3.3算法实现72
- 4.4实验分析73
- 4.4.1仿真动态增量聚类73
- 4.4.2算法对比分析77
- 参考文献78
- 5并行聚类分析80
- 5.1并行计算技术80
- 5.1.1并行计算定义81
- 5.1.2并行计算分类81
- 5.1.3并行计算模型和体系结构82
- 5.1.4并行数据挖掘85
- 5.1.5并行聚类分析86
- 5.2并行聚类算法设计与实现88
- 5.2.1算法总体流程88
- 5.2.2数据并行聚类算法89
- 5.2.3数据并行和任务并行聚类算法90
- 5.3实验分析92
- 5.3.1算法有效性分析92
- 5.3.2算法加速比分析92
- 5.3.3算法时间复杂度分析93
- 5.3.4PCADD与CADD算法执行时间对比93
- 参考文献94
- 6高维多类型属性数据对象聚类分析95
- 6.1高维多类型属性数据对象95
- 6.1.1高维数据处理95
- 6.1.2多类型属性处理96
- 6.1.3高维数据对象聚类96
- 6.1.4多类型属性数据对象聚类98
- 6.2维度对聚类算法精度影响99
- 6.2.1高维数据聚类99
- 6.2.2数据集与相关定义99
- 6.2.3实验结果及分析100
- 6.3多类型属性数据聚类分析103
- 6.3.1处理多类型数据方法103
- 6.3.2聚类效果度量标准103
- 6.3.3实验结果及分析104
- 6.4基于属性加权的高维数据聚类108
- 6.4.1属性加权CADD算法108
- 6.4.2实验结果及分析109
- 参考文献113
- 7基于密度加权模糊聚类分析115
- 7.1模糊聚类分析115
- 7.1.1模糊聚类产生115
- 7.1.2模糊聚类分类116
- 7.1.3模糊聚类算法优化117
- 7.2模糊聚类算法118
- 7.2.1模糊簇118
- 7.2.2HC-means聚类算法118
- 7.2.3FC-means聚类算法119
- 7.2.4HCM和FCM的关系120
- 7.2.5FCM算法存在问题分析121
- 7.3基于密度函数加权的FCM122
- 7.3.1聚类算法提出122
- 7.3.2聚类算法设计123
- 7.3.3实验结果及分析124
- 参考文献132
- 8基于距离量化关联规则挖掘135
- 8.1关联规则挖掘135
- 8.1.1关联规则相关概念135
- 8.1.2关联规则度量137
- 8.1.3关联规则分类138
- 8.1.4关联规则挖掘模型与步骤139
- 8.2量化关联规则140
- 8.2.1量化关联规则提出140
- 8.2.2量化关联规则定义143
- 8.2.3算法描述145
- 8.2.4算法分析146
- 8.3基于距离算法设计与实现148
- 8.3.1算法设计148
- 8.3.2数据预处理149
- 8.3.3基于距离量化规则150
- 8.3.4簇间关联度的度量150
- 8.3.5关联度参数D0限定151
- 8.3.6规则的生成153
- 8.4算法实验分析153
- 8.4.1系统交互界面153
- 8.4.2地球化学数据分析154
- 8.4.3临床医学调查数据156
- 参考文献156
- 9基于数据场的数据挖掘技术158
- 9.1数据场158
- 9.1.1数据场的概念158
- 9.1.2数据场主要特征159
- 9.1.3数据场表达159
- 9.2数据场聚类算法161
- 9.2.1数据场聚类算法设计161
- 9.2.2测试数据集产生162
- 9.2.3位场聚类实验162
- 9.2.4辐射场聚类实验163
- 9.2.5参数对数据场聚类效果影响164
- 9.3聚类效果实验分析166
- 9.3.1模拟数据分析166
- 9.3.2UCI数据集实验168
- 9.4基于数据场量化关联规则挖掘172
- 9.4.1常用量化关联规则挖掘方法172
- 9.4.2算法相关定义173
- 9.4.3算法设计与实现175
- 9.5关联规则挖掘实验与分析176
- 9.5.1身体脂肪bodyfat数据集176
- 9.5.2临床医学数据实验测试178
- 参考文献179
- 10基于MapReduce聚类分析181
- 10.1Hadoop开源云计算平台181
- 10.1.1MapReduce181
- 10.1.2HDFS文件系统183
- 10.1.3基于MapReduce聚类算法184
- 10.2基于MapReduceK-means算法改进186
- 10.2.1距离三角不等式聚类算法186
- 10.2.2距离三角不等式算法设计187
- 10.2.3聚类算法实验结果分析189
- 10.3基于MapReduceCADD聚类算法191
- 10.3.1算法设计191
- 10.3.2MapReduce聚类模型192
- 10.3.3聚类算法实验结果分析193
- 参考文献195
- 11数据挖掘结果可视化表达196
- 11.1可视化数据挖掘196
- 11.1.1数据可视化197
- 11.1.2数据挖掘过程可视化198
- 11.1.3数据挖掘结果可视化198
- 11.1.4交互式可视化数据挖掘199
- 11.2数据可视化方法及分类200
- 11.2.1基于几何的技术200
- 11.2.2面向像素的技术202
- 11.2.3基于图标的技术202
- 11.2.4基于层次的技术203
- 11.3可视化数据挖掘系统设计与实现204
- 11.3.1可视化挖掘系统204
- 11.3.2聚类结果可视化205
- 11.3.3关联规则结果可视化208
- 参考文献212
- 12地球化学数据挖掘(Ⅰ)214
- 12.1地球化学数据处理方法214
- 12.1.1传统处理方法214
- 12.1.2数据挖掘方法215
- 12.2地球化学数据聚类分析217
- 12.2.1地球化学数据来源217
- 12.2.2区域地质概况217
- 12.2.3聚类分析研究221
- 12.2.4靶区地球化学特征222
- 12.3区域矿产资源预测225
- 12.3.1地球化学异常靶区225
- 12.3.2元素组合特征分析226
- 12.3.3区域矿产资源预测232
- 参考文献234
- 13地球化学数据挖掘(Ⅱ)236
- 13.1区域地质形貌236
- 13.1.1自然地理环境236
- 13.1.2区域地质概况236
- 13.2地球化学元素聚类分析239
- 13.2.1数据整理和建立数据库239
- 13.2.2地球化学数据聚类分析239
- 13.2.3聚类结果MapGIS成图241
- 13.3地球化学元素组合特征分析243
- 13.3.1靶区1~4元素组合特征243
- 13.3.2靶区5元素组合特征243
- 13.3.3矿产资源预测244
- 13.4地球化学元素模糊C-means聚类247
- 13.4.1某金矿区模糊C-means聚类分析247
- 13.4.2某锡矿区模糊C-means聚类分析248
- 13.4.3某采样地区模糊C-means聚类分析249
- 参考文献250
- 14资源与经济发展关系分析252
- 14.1资源与经济252
- 14.1.1矿产资源开发252
- 14.1.2传统研究方法253
- 14.2数据源与数据预处理256
- 14.2.1数据的选取256
- 14.2.2数据标准化257
- 14.3聚类分析258
- 14.3.1资源储量属性258
- 14.3.2环境指标属性260
- 14.3.3经济指标属性262
- 14.3.4技术指标属性275
- 14.3.5结论与建议278
- 参考文献280