数据科学已经成为从数据中提取价值的基本工具,任何企业都可以将数据收集、存储和处理作为其业务的一部分。本书搭建了一个易于理解的概念框架,帮助读者掌握数据科学的基础知识,并在学习理论的过程中同步使用RapidMiner平台进行实践。书中将分享实用的数据分析方法,讨论如何揭示隐藏的模式和关系,无论你是新手还是专家,都能借助这些方法做出更好的决策和预测。本书非常适合商务用户、数据分析师、商务分析师、工程师和分析专家以及任何与数据打交道的人。
封面图
目录
- 赞誉
- 译者序
- 序言
- 前言
- 致谢
- 作者简介
- 第1章简介 1
- 1.1AI、机器学习和数据科学 2
- 1.2什么是数据科学 3
- 1.2.1提取有意义的模式 3
- 1.2.2构建表示模型 3
- 1.2.3统计、机器学习和计算的结合 4
- 1.2.4学习算法 4
- 1.2.5相关领域 4
- 1.3数据科学的案例 5
- 1.3.1体量 5
- 1.3.2维度 5
- 1.3.3复杂问题 6
- 1.4数据科学的分类 6
- 1.5数据科学的算法 7
- 1.6本书路线图 8
- 1.6.1数据科学入门 8
- 1.6.2练习使用RapidMiner 8
- 1.6.3核心算法 9
- 参考文献 11
- 第2章数据科学过程 12
- 2.1先验知识 13
- 2.1.1目标 13
- 2.1.2主题范围 14
- 2.1.3数据 14
- 2.1.4因果关系与相关性 15
- 2.2数据准备 15
- 2.2.1数据探索 15
- 2.2.2数据质量 16
- 2.2.3缺失值 16
- 2.2.4数据类型和转换 16
- 2.2.5转换 17
- 2.2.6异常值 17
- 2.2.7特征选择 17
- 2.2.8数据采样 17
- 2.3建模 18
- 2.3.1训练数据集和测试数据集 18
- 2.3.2学习算法 19
- 2.3.3模型评估 20
- 2.3.4集成模型 20
- 2.4应用 21
- 2.4.1生产准备 21
- 2.4.2技术整合 21
- 2.4.3响应时间 21
- 2.4.4模型刷新 22
- 2.4.5同化 22
- 2.5知识 22
- 参考文献 23
- 第3章数据探索 24
- 3.1数据探索的目标 24
- 3.2数据集 25
- 3.3描述性统计 26
- 3.3.1单变量探索 27
- 3.3.2多变量探索 28
- 3.4数据可视化 30
- 3.4.1单变量的可视化 31
- 3.4.2多变量的可视化 34
- 3.4.3可视化高维数据 38
- 3.5数据探索的路线图 40
- 参考文献 41
- 第4章分类 42
- 4.1决策树 42
- 4.1.1工作原理 42
- 4.1.2实现过程 47
- 4.1.3小结 55
- 4.2规则归纳 56
- 4.2.1工作原理 58
- 4.2.2实现过程 60
- 4.2.3小结 63
- 4.3k-NN(k-近邻) 63
- 4.3.1工作原理 64
- 4.3.2实现过程 69
- 4.3.3小结 71
- 4.4朴素贝叶斯 71
- 4.4.1工作原理 72
- 4.4.2实现过程 77
- 4.4.3小结 79
- 4.5人工神经网络 80
- 4.5.1工作原理 82
- 4.5.2实现过程 84
- 4.5.3小结 86
- 4.6支持向量机 87
- 4.6.1工作原理 89
- 4.6.2实现过程 91
- 4.6.3小结 95
- 4.7集成学习 95
- 4.7.1工作原理 97
- 4.7.2实现过程 98
- 4.7.3小结 105
- 参考文献 105
- 第5章回归方法 107
- 5.1线性回归 107
- 5.1.1工作原理 108
- 5.1.2实现过程 112
- 5.1.3检查点 117
- 5.2逻辑回归 120
- 5.2.1工作原理 122
- 5.2.2实现过程 124
- 5.2.3总结要点 127
- 5.3总结 127
- 参考文献 127
- 第6章关联分析 128
- 6.1挖掘关联规则 129
- 6.1.1项集 130
- 6.1.2规则生成 132
- 6.2Apriori算法 133
- 6.3频繁模式增长算法 136
- 6.3.1工作原理 136
- 6.3.2实现过程 138
- 6.4总结 141
- 参考文献 141
- 第7章聚类 142
- 7.1k-means聚类 145
- 7.1.1工作原理 147
- 7.1.2实现过程 149
- 7.2DBSCAN聚类 153
- 7.2.1工作原理 153
- 7.2.2实现过程 155
- 7.3自组织映射 158
- 7.3.1工作原理 159
- 7.3.2实现过程 161
- 参考文献 166
- 第8章模型评估 168
- 8.1混淆矩阵 169
- 8.2ROC和AUC 170
- 8.3提升曲线 172
- 8.4实现过程 174
- 8.5总结 177
- 参考文献 178
- 第9章文本挖掘 179
- 9.1工作原理 180
- 9.1.1词频–逆文档频率 180
- 9.1.2词语 181
- 9.2实现过程 184
- 9.2.1实现1:关键词聚类 184
- 9.2.2实现2:预测博客作者的性别 187
- 9.3总结 193
- 参考文献 194
- 第10章深度学习 195
- 10.1AI冬天 197
- 10.1.1AI冬天:20世纪70年代 197
- 10.1.2冬季解冻:20世纪80年代 198
- 10.1.3人工智能的春夏:2006年至今 200
- 10.2工作原理 201
- 10.2.1神经网络的回归模型 201
- 10.2.2梯度下降法 202
- 10.2.3需要反向传播 204
- 10.2.4分类超过2个:softmax 205
- 10.2.5卷积神经网络 207
- 10.2.6密集层 211
- 10.2.7随机失活层 211
- 10.2.8循环神经网络 212
- 10.2.9自动编码器 213
- 10.2.10相关AI模型 213
- 10.3实现过程 214
- 10.4总结 217
- 参考文献 218
- 第11章推荐引擎 219
- 11.1推荐引擎的概念 221
- 11.2协同过滤 225
- 11.2.1基于邻域的方法 226
- 11.2.2矩阵分解 233
- 11.3基于内容的过滤 238
- 11.3.1用户画像的计算 239
- 11.3.2有监督学习方法 245
- 11.4混合推荐器 249
- 11.5总结 250
- 参考文献 251
- 第12章时间序列预测 253
- 12.1时间序列分解 256
- 12.1.1经典分解 258
- 12.1.2实现过程 258
- 12.2基于平滑的方法 260
- 12.2.1简单预测方法 260
- 12.2.2指数平滑 261
- 12.2.3实现过程 263
- 12.3基于回归的方法 264
- 12.3.1回归 265
- 12.3.2周期性回归 266
- 12.3.3集成移动平均自回归模型 268
- 12.3.4周期性ARIMA 272
- 12.4机器学习方法 274
- 12.4.1窗口化 275
- 12.4.2神经网络自回归 280
- 12.5性能评估 282
- 12.5.1验证数据集 282
- 12.5.2滑动窗口验证 283
- 12.6总结 284
- 参考文献 285
- 第13章异常检测 286
- 13.1概念 286
- 13.1.1异常点的原因 286
- 13.1.2异常检测技术 288
- 13.2基于距离的异常点检测 289
- 13.2.1工作原理 290
- 13.2.2实现过程 291
- 13.3基于密度的异常点检测 293
- 13.3.1工作原理 293
- 13.3.2实现过程 294
- 13.4局部异常因子 295
- 13.4.1工作原理 295
- 13.4.2实现过程 296
- 13.5总结 297
- 参考文献 298
- 第14章特征选择 299
- 14.1分类特征选择方法 299
- 14.2主成分分析 301
- 14.2.1工作原理 301
- 14.2.2实现过程 302
- 14.3基于信息理论的过滤 306
- 14.4基于卡方的过滤 307
- 14.5包裹式特征选择 309
- 14.6总结 313
- 参考文献 313
- 第15章RapidMiner入门 314
- 15.1用户界面和术语 314
- 15.2数据导入和导出工具 317
- 15.3数据可视化工具 320
- 15.4数据转换工具 321
- 15.5采样和缺失值工具 324
- 15.6优化工具 327
- 15.7与R的集成 332
- 15.8总结 332
- 参考文献 333
- 附录数据科学算法的比较 334