编辑推荐
人工智能,触手可及,让数据起舞,用算法扩展业务边界 。
阿里机器学习专家力作,实战经验分享 。
这是一本难得的面向机器学习爱好者的入门级教程,本书涉及机器学习的基础理论
和深度学习等相关内容,内容深入浅出。更加难能可贵的是,本书基于阿里云机器学习平台,针对7个具体的业务场景,搭建了完整的解决方案,给读者带来第一手的实战演练经验。 ——阿里云资深专家 褚崴
机器学习算法正在逐渐渗透到数据化运营的各个方面,算法和业务数据相结合可以大幅度地提高业务效率、降低成本。本书以算法的业务应用作为切入点,包含大量的案例说明,非常适合读者快速入门。 ——阿里云高级专家 陈鹏宇
通过阅读本书,你将了解到:
机器学习全流程的串联方式,包括数据预处理、特征工程、算法、模型评估等;
常用的机器学习算法,包括逻辑回归、随机森林、支持向量机、KMEANS、DBSCAN、K近邻、
马尔科夫决策、LDA、标签传播等;
机器学习算法在实际业务中的应用,涉及金融、医疗、新闻、电商等诸多领域;
机器学习的常用工具:R、Spark-MLib、TensorFlow、PAI等;
时下热门的技术领域:深度学习、知识图谱等。
内容简介
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度等多门学科,专门研究计算机怎样模拟或实现人类的学习行为。机器学习是人工智能的核心,是使计算机具有智能的根本途径。本书通过对机器学习的背景知识、算法流程、相关工具、实践案例以及知识图谱等内容的讲解,全面介绍了机器学习的理论基础和实践应用。书中涉及机器学习领域的多个典型算法,并详细给出了机器学习的算法流程。本书适合任何有一定数据功底和编程基础的读者阅读。通过阅读本书,读者不仅可以了解机器学习的理论基础,也可以参照一些典型的应用案例拓展自己的专业技能。同时,本书也适合计算机相关专业的学生以及对人工智能和机器学习感兴趣的读者阅读。
作者简介
李博,花名“傲海”。目前任阿里云数据产品经理,主要负责机器学习平台的产品化建设以及对外业务应用。本科、硕士毕业于北京邮电大学,曾就职于索尼和华为(实习),从事数据相关产品的开发。作为CSDN博客专家、云栖社区博客专家,长期分享IT技术相关文章,内容涉及机器学习算法、Android应用及源码开发等领域。一直活跃于开发者社区,主导开发了多个GitHub百星开源项目,还开发并上线了多款手机App。作者公众号(长期更新机器学习业务应用文章):凡人机器学习 个人网站:www.garvinli.com 作者邮箱:garvin.libo@gmail.com
目录
- 第1部分 背景知识
- 第1章 机器学习概述 3
- 1.1 背景 3
- 1.2 发展现状 6
- 1.2.1 数据现状 6
- 1.2.2 机器学习算法现状 8
- 1.3 机器学习基本概念 12
- 1.3.1 机器学习流程 12
- 1.3.2 数据源结构 14
- 1.3.3 算法分类 16
- 1.3.4 过拟合问题 18
- 1.3.5 结果评估 20
- 1.4 本章小结 22
- 第2部分 算法流程
- 第2章 场景解析 25
- 2.1 数据探查 25
- 2.2 场景抽象 27
- 2.3 算法选择 29
- 2.4 本章小结 31
- 第3章 数据预处理 32
- 3.1 采样 32
- 3.1.1 随机采样 32
- 3.1.2 系统采样 34
- 3.1.3 分层采样 35
- 3.2 归一化 36
- 3.3 去除噪声 39
- 3.4 数据过滤 42
- 3.5 本章小结 43
- 第4章 特征工程 44
- 4.1 特征抽象 44
- 4.2 特征重要性评估 49
- 4.3 特征衍生 53
- 4.4 特征降维 57
- 4.4.1 特征降维的基本概念 57
- 4.4.2 主成分分析 59
- 4.5 本章小结 62
- 第5章 机器学习算法——常规算法 63
- 5.1 分类算法 63
- 5.1.1 K近邻 63
- 5.1.2 朴素贝叶斯 68
- 5.1.3 逻辑回归 74
- 5.1.4 支持向量机 81
- 5.1.5 随机森林 87
- 5.2 聚类算法 94
- 5.2.1 K-means 97
- 5.2.2 DBSCAN 103
- 5.3 回归算法 109
- 5.4 文本分析算法 112
- 5.4.1 分词算法——Hmm 112
- 5.4.2 TF-IDF 118
- 5.4.3 LDA 122
- 5.5 推荐类算法 127
- 5.6 关系图算法 133
- 5.6.1 标签传播 134
- 5.6.2 Dijkstra最短路径 138
- 5.7 本章小结 145
- 第6章 机器学习算法——深度学习 146
- 6.1 深度学习概述 146
- 6.1.1 深度学习的发展 147
- 6.1.2 深度学习算法与传统算法的比较 148
- 6.2 深度学习的常见结构 152
- 6.2.1 深度神经网络 152
- 6.2.2 卷积神经网络 153
- 6.2.3 循环神经网络 156
- 6.3 本章小结 157
- 第3部分 工具介绍
- 第7章 常见机器学习工具介绍 161
- 7.1 概述 161
- 7.2 单机版机器学习工具 163
- 7.2.1 SPSS 163
- 7.2.2 R语言 167
- 7.2.3 工具对比 172
- 7.3 开源分布式机器学习工具 172
- 7.3.1 Spark MLib 172
- 7.3.2 TensorFlow 179
- 7.4 企业级云机器学习工具 190
- 7.4.1 亚马逊AWS ML 191
- 7.4.2 阿里云机器学习PAI 196
- 7.5 本章小结 205
- 第4部分 实战应用
- 第8章 业务解决方案 209
- 8.1 心脏病预测 209
- 8.1.1 场景解析 209
- 8.1.2 实验搭建 211
- 8.1.3 小结 216
- 8.2 商品推荐系统 216
- 8.2.1 场景解析 217
- 8.2.2 实验搭建 218
- 8.2.3 小结 220
- 8.3 金融风控案例 220
- 8.3.1 场景解析 221
- 8.3.2 实验搭建 222
- 8.3.3 小结 225
- 8.4 新闻文本分析 225
- 8.4.1 场景解析 225
- 8.4.2 实验搭建 226
- 8.4.3 小结 230
- 8.5 农业贷款发放预测 230
- 8.5.1 场景解析 230
- 8.5.2 实验搭建 232
- 8.5.3 小结 236
- 8.6 雾霾天气成因分析 236
- 8.6.1 场景解析 237
- 8.6.2 实验搭建 238
- 8.6.3 小结 243
- 8.7 图片识别 243
- 8.7.1 场景解析 243
- 8.7.2 实验搭建 245
- 8.7.3 小结 253
- 8.8 本章小结 253
- 第5部分 知识图谱
- 第9章 知识图谱 257
- 9.1 未来数据采集 257
- 9.2 知识图谱的概述 259
- 9.3 知识图谱开源工具 261
- 9.4 本章小结 264
- 参考文献 265