当前位置:主页 > 书籍配套资源 > 数据科学配套资源
《数据科学概念与实践(原书第2版)》配书资源

《数据科学概念与实践(原书第2版)》配书资源

  • 更新:2022-01-17
  • 大小:40.1 MB
  • 类别:数据科学
  • 作者:维贾伊·库图
  • 出版:机械工业出版社
  • 格式:PDF

  • 资源介绍
  • 相关推荐

数据科学已经成为从数据中提取价值的基本工具,任何企业都可以将数据收集、存储和处理作为其业务的一部分。本书搭建了一个易于理解的概念框架,帮助读者掌握数据科学的基础知识,并在学习理论的过程中同步使用RapidMiner平台进行实践。书中将分享实用的数据分析方法,讨论如何揭示隐藏的模式和关系,无论你是新手还是专家,都能借助这些方法做出更好的决策和预测。本书非常适合商务用户、数据分析师、商务分析师、工程师和分析专家以及任何与数据打交道的人。

封面图

目录

  • 赞誉
  • 译者序
  • 序言
  • 前言
  • 致谢
  • 作者简介
  • 第1章简介 1
  • 1.1AI、机器学习和数据科学 2
  • 1.2什么是数据科学 3
  • 1.2.1提取有意义的模式 3
  • 1.2.2构建表示模型 3
  • 1.2.3统计、机器学习和计算的结合 4
  • 1.2.4学习算法 4
  • 1.2.5相关领域 4
  • 1.3数据科学的案例 5
  • 1.3.1体量 5
  • 1.3.2维度 5
  • 1.3.3复杂问题 6
  • 1.4数据科学的分类 6
  • 1.5数据科学的算法 7
  • 1.6本书路线图 8
  • 1.6.1数据科学入门 8
  • 1.6.2练习使用RapidMiner 8
  • 1.6.3核心算法 9
  • 参考文献 11
  • 第2章数据科学过程 12
  • 2.1先验知识 13
  • 2.1.1目标 13
  • 2.1.2主题范围 14
  • 2.1.3数据 14
  • 2.1.4因果关系与相关性 15
  • 2.2数据准备 15
  • 2.2.1数据探索 15
  • 2.2.2数据质量 16
  • 2.2.3缺失值 16
  • 2.2.4数据类型和转换 16
  • 2.2.5转换 17
  • 2.2.6异常值 17
  • 2.2.7特征选择 17
  • 2.2.8数据采样 17
  • 2.3建模 18
  • 2.3.1训练数据集和测试数据集 18
  • 2.3.2学习算法 19
  • 2.3.3模型评估 20
  • 2.3.4集成模型 20
  • 2.4应用 21
  • 2.4.1生产准备 21
  • 2.4.2技术整合 21
  • 2.4.3响应时间 21
  • 2.4.4模型刷新 22
  • 2.4.5同化 22
  • 2.5知识 22
  • 参考文献 23
  • 第3章数据探索 24
  • 3.1数据探索的目标 24
  • 3.2数据集 25
  • 3.3描述性统计 26
  • 3.3.1单变量探索 27
  • 3.3.2多变量探索 28
  • 3.4数据可视化 30
  • 3.4.1单变量的可视化 31
  • 3.4.2多变量的可视化 34
  • 3.4.3可视化高维数据 38
  • 3.5数据探索的路线图 40
  • 参考文献 41
  • 第4章分类 42
  • 4.1决策树 42
  • 4.1.1工作原理 42
  • 4.1.2实现过程 47
  • 4.1.3小结 55
  • 4.2规则归纳 56
  • 4.2.1工作原理 58
  • 4.2.2实现过程 60
  • 4.2.3小结 63
  • 4.3k-NN(k-近邻) 63
  • 4.3.1工作原理 64
  • 4.3.2实现过程 69
  • 4.3.3小结 71
  • 4.4朴素贝叶斯 71
  • 4.4.1工作原理 72
  • 4.4.2实现过程 77
  • 4.4.3小结 79
  • 4.5人工神经网络 80
  • 4.5.1工作原理 82
  • 4.5.2实现过程 84
  • 4.5.3小结 86
  • 4.6支持向量机 87
  • 4.6.1工作原理 89
  • 4.6.2实现过程 91
  • 4.6.3小结 95
  • 4.7集成学习 95
  • 4.7.1工作原理 97
  • 4.7.2实现过程 98
  • 4.7.3小结 105
  • 参考文献 105
  • 第5章回归方法 107
  • 5.1线性回归 107
  • 5.1.1工作原理 108
  • 5.1.2实现过程 112
  • 5.1.3检查点 117
  • 5.2逻辑回归 120
  • 5.2.1工作原理 122
  • 5.2.2实现过程 124
  • 5.2.3总结要点 127
  • 5.3总结 127
  • 参考文献 127
  • 第6章关联分析 128
  • 6.1挖掘关联规则 129
  • 6.1.1项集 130
  • 6.1.2规则生成 132
  • 6.2Apriori算法 133
  • 6.3频繁模式增长算法 136
  • 6.3.1工作原理 136
  • 6.3.2实现过程 138
  • 6.4总结 141
  • 参考文献 141
  • 第7章聚类 142
  • 7.1k-means聚类 145
  • 7.1.1工作原理 147
  • 7.1.2实现过程 149
  • 7.2DBSCAN聚类 153
  • 7.2.1工作原理 153
  • 7.2.2实现过程 155
  • 7.3自组织映射 158
  • 7.3.1工作原理 159
  • 7.3.2实现过程 161
  • 参考文献 166
  • 第8章模型评估 168
  • 8.1混淆矩阵 169
  • 8.2ROC和AUC 170
  • 8.3提升曲线 172
  • 8.4实现过程 174
  • 8.5总结 177
  • 参考文献 178
  • 第9章文本挖掘 179
  • 9.1工作原理 180
  • 9.1.1词频–逆文档频率 180
  • 9.1.2词语 181
  • 9.2实现过程 184
  • 9.2.1实现1:关键词聚类 184
  • 9.2.2实现2:预测博客作者的性别 187
  • 9.3总结 193
  • 参考文献 194
  • 第10章深度学习 195
  • 10.1AI冬天 197
  • 10.1.1AI冬天:20世纪70年代 197
  • 10.1.2冬季解冻:20世纪80年代 198
  • 10.1.3人工智能的春夏:2006年至今 200
  • 10.2工作原理 201
  • 10.2.1神经网络的回归模型 201
  • 10.2.2梯度下降法 202
  • 10.2.3需要反向传播 204
  • 10.2.4分类超过2个:softmax 205
  • 10.2.5卷积神经网络 207
  • 10.2.6密集层 211
  • 10.2.7随机失活层 211
  • 10.2.8循环神经网络 212
  • 10.2.9自动编码器 213
  • 10.2.10相关AI模型 213
  • 10.3实现过程 214
  • 10.4总结 217
  • 参考文献 218
  • 第11章推荐引擎 219
  • 11.1推荐引擎的概念 221
  • 11.2协同过滤 225
  • 11.2.1基于邻域的方法 226
  • 11.2.2矩阵分解 233
  • 11.3基于内容的过滤 238
  • 11.3.1用户画像的计算 239
  • 11.3.2有监督学习方法 245
  • 11.4混合推荐器 249
  • 11.5总结 250
  • 参考文献 251
  • 第12章时间序列预测 253
  • 12.1时间序列分解 256
  • 12.1.1经典分解 258
  • 12.1.2实现过程 258
  • 12.2基于平滑的方法 260
  • 12.2.1简单预测方法 260
  • 12.2.2指数平滑 261
  • 12.2.3实现过程 263
  • 12.3基于回归的方法 264
  • 12.3.1回归 265
  • 12.3.2周期性回归 266
  • 12.3.3集成移动平均自回归模型 268
  • 12.3.4周期性ARIMA 272
  • 12.4机器学习方法 274
  • 12.4.1窗口化 275
  • 12.4.2神经网络自回归 280
  • 12.5性能评估 282
  • 12.5.1验证数据集 282
  • 12.5.2滑动窗口验证 283
  • 12.6总结 284
  • 参考文献 285
  • 第13章异常检测 286
  • 13.1概念 286
  • 13.1.1异常点的原因 286
  • 13.1.2异常检测技术 288
  • 13.2基于距离的异常点检测 289
  • 13.2.1工作原理 290
  • 13.2.2实现过程 291
  • 13.3基于密度的异常点检测 293
  • 13.3.1工作原理 293
  • 13.3.2实现过程 294
  • 13.4局部异常因子 295
  • 13.4.1工作原理 295
  • 13.4.2实现过程 296
  • 13.5总结 297
  • 参考文献 298
  • 第14章特征选择 299
  • 14.1分类特征选择方法 299
  • 14.2主成分分析 301
  • 14.2.1工作原理 301
  • 14.2.2实现过程 302
  • 14.3基于信息理论的过滤 306
  • 14.4基于卡方的过滤 307
  • 14.5包裹式特征选择 309
  • 14.6总结 313
  • 参考文献 313
  • 第15章RapidMiner入门 314
  • 15.1用户界面和术语 314
  • 15.2数据导入和导出工具 317
  • 15.3数据可视化工具 320
  • 15.4数据转换工具 321
  • 15.5采样和缺失值工具 324
  • 15.6优化工具 327
  • 15.7与R的集成 332
  • 15.8总结 332
  • 参考文献 333
  • 附录数据科学算法的比较 334

资源下载

资源下载地址1:https://pan.baidu.com/s/1N70pjqgXe8NG0Yn-NZFaCQ

相关资源

网友留言