《机器学习实践:测试驱动的开发方法》这本书全面而系统地介绍了机器学习的基本原理,同时深入讲解了如何通过测试驱动的方式来进行机器学习的开发。本书内容涵盖了测试驱动的机器学习、机器学习概述、K近邻分类、朴素贝叶斯分类、隐马尔科夫模型等多个重要主题。作者通过清晰的讲解和丰富的实例,帮助读者建立对机器学习的深入理解,并提供了实践中的解决方案和技巧。对于想要系统学习机器学习且注重实践的读者来说,这本书是一本非常值得阅读的参考书。
机器学习实践:测试驱动的开发方法电子书封面
读者评价
Github 上的 Ruby 代码木有 README 完全不知道怎么跑起来…
Ruby 的测试代码没看太懂,但给我传达了测试的思想
本书主要介绍如何将测试驱动开发运用于机器学习算法。每一章都通过示例介绍了机器学习技术能够解决的有关数据的具体问题,以及求解问题和处理数据的方法。具体涵盖了测试驱动的机器学习、机器学习概述、K 近邻分类、朴素贝叶斯分类、隐马尔可夫模型、支持向量机、神经网络、聚类、核岭回归、模型改进与数据提取等内容。通过学习本书,你将能够利用机器学习技术解决涉及数据的现实问题。
内容介绍
《机器学习实践:测试驱动的开发方法》面技术开发人员、CTO和咨询顾问人员,介绍了机器学习的基本原理,涵盖了测试驱动的机器学习、机器学习概述、K近邻分类、朴素贝叶斯分类、隐马尔科夫模型、支持向量机、神经网络、聚类、核岭回归、模型改进与数据提取等内容。
目录
- 前言 xi
- 第1章 测试驱动的机器学习 1
- 第2章 机器学习概述 13
- 第3章 K 近邻分类 17
- 第4章 朴素贝叶斯分类 45
- 第5章 隐马尔可夫模型 67
- 第6章 支持向量机 89
- 第7章 神经网络 113
- 第8章 聚类 137
- 第9章 核岭回归 153
- 第10章 模型改进与数据提取 169
- 第11章 结语 185
- 作者介绍 188
- 封面介绍 188
机器学习在个推业务中的应用场景 作为独立的智能大数据服务商,个推主要业务包括开发者服务、精准营销服务和各垂直领域的大数据服务。而机器学习技术在多项业务及产品中均有涉及: 1、个推能够提供基于精准用户画像的智能推送。其中用户标签主要是基于机器学习,通过训练模型后对人群做预测分类; 2、广告人群定向; 3、商圈景区人流量预测; 4、移动开发领域经常出现虚假设备,机器学习能够帮助开发者识别新增的用户的真伪; 5、个性化内容推荐; 6、用户流失以及留存周期的预测。
统计学习方法基本问题 学习概念:如果一个系统能通过执行某个进程改进它的性能,这就是学习。 机器学习是使用计算机系统通过运用数据及统计方法提高系统性能。 统计学习基本假设:同类数据独立同分布。 统计学习假设要学习的模型属于某个函数的集合,称为假设空间。 机器学习分类: 根据任务:分类和回归 根据样本的标注信息:监督,半监督,无监督,强化学习 监督学习分为分类,回归,标注 统计学习三要素:模型,策略,算法 模型:所要学习的是条件概率或决策的函数 策略:损失函数度量一次预测的好坏,风险函数度量平均意义下的模型预测的好坏。 损失函数: 0-1损失函数 平方损失函数 绝对损失函数 对数损失函数 风险函数: 经验风险最小化 期望风险最小化 结构风险最小化:增加正则化因子,防止过度拟合。结构风险最小化可以认为是有约束的经验风险最小化,有约束即缩小参数空间。
在我开始这一周的机器学习之前,我已经阅读过一些相关的文章了, 并且学习了一半吴恩达(Andrew Ng)在 Coursera 上的机器学习课程,以及一些其他的理论课程。所以我对机器学习有些基本的概念,但我仍然我不能将我的知识转换为代码,这是我想要改变的。 我想在一周学习的最后阶段能够用 ML 解决问题,尽管这意味着会跳过很多基础知识,我采取了自上而下的学习方法,而不是自下而上。 在 Hacker News 上咨询之后,我得出的结论是 Python 的 Scikit Learn 库是最适合入门的。这个库提供了丰富的算法,将实际的机器学习问题减少到几行代码。