内容介绍
这是一部讲解如何基于机器学习技术实现数据缺失值填补的专著,与传统的基于统计学的缺失值填补方法相比,效率上得到了较大的提升。作者基于多年的研究和实践成果,创新性地提出了基于神经网络的缺失值填补方法和基于TS模型的缺失值填补方法。
全书共8章,可分为4个部分。
第一部分(第1~3章):首先介绍缺失值填补领域的缺失数据机制、基本概念、性能度量等基础知识,随后详细阐述目前基于统计学、机器学习的缺失值填补理论与方法。
第二部分(第4~5章):对目前神经网络在缺失值填补领域的研究成果进行归纳总结,并从网络模型、填补方案角度阐述神经网络填补方法的设计及应用。
第三部分(第6~7章):详细介绍面向不完整数据的TS建模过程,随后通过特征选择算法处理TS建模中的特征冗余问题,并从前提参数优化和结论参数优化两个角度改进TS模型。
第四部分(第8章):以缺失值填补方法在我国贫困问题研究中的应用为例,展现缺失值填补方法的现实意义。
封面图
目录
- 前言
- 第1章绪论 1
- 1.1缺失值填补的背景与意义 1
- 1.2缺失值填补方法的研究现状概述 3
- 1.2.1基于统计学的缺失值填补方法 3
- 1.2.2基于机器学习的缺失值填补方法 4
- 1.3缺失值填补的应用 7
- 1.4本章小结 10
- 参考文献 11
- 第2章缺失数据的处理方法 14
- 2.1数据缺失机制 14
- 2.1.1完全随机缺失 15
- 2.1.2随机缺失 15
- 2.1.3非随机缺失 16
- 2.2缺失数据的处理 17
- 2.2.1不做处理 17
- 2.2.2不完整样本删除 19
- 2.2.3缺失值填补 20
- 2.3缺失值填补概述 22
- 2.3.1基本概念 22
- 2.3.2方法分类 24
- 2.3.3性能度量 26
- 2.4本章小结 29
- 参考文献 29
- 第3章缺失值填补方法 31
- 3.1基于样本间相似度的填补方法 31
- 3.1.1均值填补法 31
- 3.1.2热平台填补法 34
- 3.1.3K最近邻填补法 36
- 3.1.4基于聚类的填补方法 39
- 3.2基于属性间相关性的填补方法 46
- 3.2.1基于线性回归的填补方法 46
- 3.2.2基于非线性回归的填补方法 51
- 3.2.3基于神经网络的填补方法 54
- 3.3基于参数估计的期望最大化填补方法 60
- 3.3.1参数估计法 60
- 3.3.2期望最大化填补法 63
- 3.4针对缺失数据不确定性的填补方法 66
- 3.4.1多重填补法 67
- 3.4.2基于证据理论的填补方法 72
- 3.5本章小结 78
- 参考文献 79
- 第4章面向不完整数据的神经网络填补方法 81
- 4.1基于自组织映射网络的填补方法 81
- 4.1.1自组织映射网络理论 81
- 4.1.2自组织映射网络的缺失值处理 85
- 4.2基于单层感知机的填补方法 87
- 4.2.1单层感知机理论 87
- 4.2.2传统单层感知机的改进 88
- 4.2.3单层感知机填补模型 89
- 4.3基于多层感知机的填补方法 91
- 4.3.1多层感知机理论 91
- 4.3.2基于多层感知机集群的填补方法 93
- 4.3.3基于多层感知机简化集群的填补方法 95
- 4.4基于自编码器及其变体的填补方法 96
- 4.4.1基于自编码器的填补法 97
- 4.4.2基于径向基函数自编码器的填补法 99
- 4.4.3基于广义回归自编码器的填补法 102
- 4.4.4基于对偶传播自编码器的填补法 104
- 4.4.5基于极限学习机自编码器的填补法 106
- 4.5面向不完整数据的属性关联型神经元建模与填补方法 107
- 4.5.1基于去跟踪自编码器的填补法 108
- 4.5.2基于关联增强型自编码器的填补法 112
- 4.5.3基于多任务学习的填补方法 114
- 4.6典型神经网络填补模型实验 117
- 4.6.1实验设计 118
- 4.6.2不同网络模型的填补精度 120
- 4.6.3自编码器的自跟踪性 121
- 4.6.4去跟踪自编码器的去跟踪性 123
- 4.7本章小结 124
- 参考文献 124
- 第5章神经网络填补方法的优化设计 127
- 5.1面向不完整数据的代价函数 127
- 5.2两阶段式填补方案 131
- 5.2.1训练阶段 132
- 5.2.2填补阶段 135
- 5.3融合式填补方案 143
- 5.3.1基于缺失值变量的神经网络动态填补方案 143
- 5.3.2缺失值变量与模型参数的动态更新 144
- 5.3.3时间复杂度 147
- 5.4典型神经网络填补方案实验 149
- 5.4.1实验设计 149
- 5.4.2不同填补方案的填补精度 152
- 5.4.3MVPT填补方案的收敛性 154
- 5.5本章小结 155
- 参考文献 156
- 第6章基于TS建模的非线性回归填补法 157
- 6.1模糊数学基础 157
- 6.1.1模糊数学与模糊集合 157
- 6.1.2模糊数学在缺失值填补中的应用 158
- 6.2TS模型 159
- 6.2.1TS模型基本结构 159
- 6.2.2TS模型研究与应用现状 160
- 6.3基于TS模型的填补方法 163
- 6.3.1基于TS模型的填补方法概述 163
- 6.3.2前提参数获取 165
- 6.3.3结论参数获取 168
- 6.3.4缺失值填补 169
- 6.4基于特征选择的TS模型填补法 170
- 6.4.1特征选择算法概述 170
- 6.4.2基于特征选择的TS模型填补法 177
- 6.5TS模型填补方法实验 178
- 6.5.1实验设计 178
- 6.5.2TS模型与回归模型的填补效果对比 179
- 6.5.3特征选择对TS模型拟合精度的影响 181
- 6.5.4特征选择对TS模型填补精度的影响 183
- 6.6本章小结 186
- 参考文献 186
- 第7章TS模型填补方法的优化设计 188
- 7.1面向类不均衡数据的TS模型优化 188
- 7.1.1TS模型中的FCM算法 188
- 7.1.2FCM算法存在的问题 190
- 7.1.3DPC算法 192
- 7.1.4类不均衡数据的MDF算法 195
- 7.1.5MDF算法实验 196
- 7.2基于交替学习策略的TS模型填补方法 204
- 7.2.1TS结论参数与填补值的交替学习策略 206
- 7.2.2交替学习策略的迭代收敛性 208
- 7.2.3交替学习策略下线性回归填补法实验 209
- 7.2.4交替学习策略下TS模型填补法实验 210
- 7.3本章小结 212
- 参考文献 212
- 第8章基于缺失值填补的中国贫困家庭特征分析 213
- 8.1精准扶贫过程中的数据缺失问题 213
- 8.1.1我国贫困问题研究 213
- 8.1.2中国家庭追踪调查中的数据缺失问题 214
- 8.2CFPS数据集缺失值填补 216
- 8.2.1基于去跟踪自编码器的动态缺失值填补 216
- 8.2.2缺失值填补精度 217
- 8.3贫困家庭识别 219
- 8.3.1多维贫困测度 219
- 8.3.2贫困的维度指标及临界剥夺值 220
- 8.3.3基于层次分析法的多维贫困指标权重计算 223
- 8.3.4CFPS2016数据集的多维贫困家庭识别 227
- 8.4基于聚类算法的贫困家庭类别划分 229
- 8.4.1层次聚类算法 229
- 8.4.2贫困家庭聚类 230
- 8.5贫困家庭典型特征分析 232
- 8.5.1多重聚类特征选择算法 232
- 8.5.2贫困家庭典型特征选择 233
- 8.6本章小结 235
- 参考文献 236