机器学习与优化

更新：2023-08-08
大小：24.5 MB
类别：机器学习
作者：罗伯托·巴蒂蒂
出版：人民邮电出版社
版本：PDF 高质量版

资源介绍
相关推荐

《机器学习与优化》是一本在机器学习实战领域的佳作。本书从机器学习的基本概念讲起，循序渐进地引导初学者进入机器学习的世界，并帮助他们走上实践的道路。书中详尽地介绍了各种机器学习算法和技术，在理论和实践上都提供了深入的指导。本书还强调了优化方法在机器学习中的重要性，并提供了相关的实践案例和问题解决方法。无论是想深入了解机器学习基础知识，还是寻求实际应用的指导，这本书都是不可或缺的读物。

机器学习与优化

机器学习与优化电子书封面

内容节选

数据预处理
之所以要做数据预处理，是因为提供的数据集往往很少是可以直接拿来用的。
可能的情况有：
1. 样本某些属性值缺失
2. 有未标记样本
3. 样本的属性太多
4. 样本量不足
5. 没有分出测试集和验证集
6. 不同类的样本数相差比较大
不同类的样本数相差比较大
这就是所谓类别不平衡问题。举个例子，样本里有998个反例，2个正例，如果一个模型对任何的新样本都预测为反例，那么它的精度为99.8%，虽然很高，但没有任何价值。
这种情况使用的基本策略是再缩放，具体方法则是采样。通过不同的采样方法来使类别达到平衡。
没有分出测试集和验证集
再说第五种情况，为了方便训练和验证模型好坏，数据集一般会以9：1或者其他合适比例（比例选择主要基于实际问题）分为测试集和验证集。如果给定的数据集只是已经标记好的样本，那么划分时必须保证数据集和测试集的分布大致均匀，这就涉及到具体的划分算法了。
样本量不足
第四种情况一般图像问题比较常遇到，如果样本量不足，不够模型来学习，效果自然很差。常见的方法一般有两种：
1. 基于原数据集做扩充。比如对于图片，可以做各种处理，比如旋转、crop、对比度、亮度等基于像素值的调整，使得一个样本能够生成多个样本，从而达到扩充数据集的目的。
2. 通过人工标注生成样本。比如大名鼎鼎的ImageNet数据集就是通过全球众包完成的，当然这个不仅耗时长，人工成本也很高，需谨慎考虑。
样本的属性太多
对于第三种情况，如果样本属性太多，为了保证模型的泛化性能足够强，则理论上必须保证数据集包括有所有属性的所有值，而这随着属性数目以及属性值是呈指数上升，很有可能达到天文数字，不仅难以计算，在现实情况也不可能收集到这么多的样本。
从数学角度看，每个样本的属性可以看成向量，属性数目是向量的维数，解决第三种情况一般有两种方法：
1. 降维
2. 特征选择
特征选择比较好理解，就是选择有用相关的属性，或者用另外一种表达方式：选择样本中有用、跟问题相关的特征。事实上这也很正常，并不一定样本的所有属性对具体问题都是有用的，通过一定的方法选择合适的特征可以保证模型更优。常用的方法大致分三类：过滤式、包裹式和嵌入式。
所谓的降维，即是多属性意味着是高维空间，在很多时候可以等价的映射到低维而不丢失主要信息。从空间映射的角度看，我们可以通过主成分分析PCA（线性映射）和核化主成分分析（非线性映射）来达到降维的目的。（补充：PCA是无监督降维方法，线性判别分析LDA则是监督降维防范）
有未标记样本
现实情况下往往很多数据集都有大量的未标记样本，有标记的样本反而比较少。如果直接弃用，很大程度上会导致模型精度低。这种情况解决的思路往往是结合有标记的样本，通过估计的方法把未标记样本变为伪的有标记样本。基本的方法有主动学习和半监督学习两种方法。
样本某些属性值缺失
样本的属性值缺失是很常见的一种情况。比如做书籍、视频、音乐等的个性化推荐时，需要用户对不同种类的偏好或评价。而用户不一定听过所有种类的歌，也不一定做出了评价。这就需要通过他已产生的样本数据和与之相类似的用户的数据来恢复和补全。
从原理上讲，这和压缩感知根据部分信息恢复全部信息是有类似的。
常用的方法涉及到协同过滤、矩阵补全等技术和方法。

内容介绍

本书是机器学习实战领域的一本佳作，从机器学习的基本概念讲起，旨在将初学者引入机器学习的大门，并走上实践的道路。本书通过讲解机器学习中的监督学习和无监督学习，并结合特征选择和排序、聚类方法、文本和网页挖掘等热点问题，论证了“优化是力量之源”这一观点，为机器学习在企业中的应用提供了切实可行的操作建议。

第 1章引言 1
第 2章懒惰学习：最近邻方法 9
第3章学习需要方法 14
第一部分监督学习
第4章线性模型 26
第5章广义线性最小二乘法 37
第6章规则、决策树和森林 50
第7章特征排序及选择 59
第8章特定非线性模型 67
第9章神经网络：多层感知器 76
第 10章深度和卷积网络 84
第 11章统计学习理论和支持向量机 94
第 12章最小二乘法和健壮内核机器 103
第 13章机器学习中的民主 110
第 14章递归神经网络和储备池计算 121
第二部分无监督学习和聚类
第 15章自顶向下的聚类：K均值 132
第 16章自底向上（凝聚）聚类 142
第 17章自组织映射 149
第 18章通过线性变换降维（投影） 155
第 19章通过非线性映射可视化图与网络 165
第 20章半监督学习 174
第三部分优化：力量之源
第 21章自动改进的局部方法 184
第 22章局部搜索和反馈搜索优化 211
第 23章合作反馈搜索优化 222
第 24章多目标反馈搜索优化 232
第四部分应用精选
第 25章文本和网页挖掘 240
第 26章协同过滤和推荐 257
参考文献 263
索引 269

资源获取

高速下载(提取码：opmh)

网友留言

尹明亮 2019-05-06 11:10:41

选定了模型，如何训练和优化也是一个重要问题。 - 如果要评估训练集和验证集的划分效果，常用的有留出法、交叉验证法、自助法、模型调参等 - 如果模型计算时间太长，可以考虑剪枝 - 如果是过拟合，则可通过引入正则化项来抑制（补偿原理） - 如果单个模型效果不佳，可以集成多个学习器通过一定策略结合，取长补短（集成学习）

蒙浩涆 2019-05-06 11:10:14

在数据集完美的情况下，接下来就是根据具体问题选定恰当的模型了。一种方式是根据有没有标记样本考虑。如果是有标记样本，可以考虑有监督学习，反之则是无监督学习，兼而有之就看半监督学习是否派的上用场。无监督学习方法主要提到的是聚类。随机选定几个样本，通过一定的算法不停迭代直至收敛或者达到停止条件，然后便将所有样本分成了几类。对有监督学习而言，根据最终所需要的输出结果如果涉及到分类，可以参考的模型有线性回归及其非线性扩展、决策树、神经网络、支持向量机SVM、规则学习等如果是回归问题，可以认为是分类的连续形式，方法便是以上模型的变种或扩展如果涉及到概率，可以参考的有神经网络、贝叶斯、最大似然、EM、概率图、隐马尔科夫模型、强化学习等