《Python机器学习经典实例》通过实战案例带领读者深入机器学习的核心,覆盖了从监督学习到深度神经网络的广泛主题,本书详细阐述了如何构建分类器,进行预测建模,以及利用无监督学习进行聚类,书中的推荐引擎和文本数据分析章节为读者提供了解决实际问题的有效工具,而探讨语音识别和时序数据分析的部分则展示了机器学习在特定领域的应用,更为高级的内容,如图像内容分析和人脸识别,体现了机器学习在视觉处理方面的强大能力,至于深度学习爱好者,深度神经网络一章提供了坚实的入门基础,书尾的数据可视化部分,不仅帮助读者更好地理解和展示数据,也为整个学习过程画上了完美的句点,适合各层次的从业人员,这本书是那些期望用Python进军机器学习领域的读者的宝贵资源。
读者评价
很多代码,但是重复的太多了。比如用逻辑回归写了个代码,预处理部分写了函数,然后从sklearn调用Logistic_regression,然后fit,predict,然后到svm部分呢,预处理部分写了个代码,然后又调用sklearn svm.fit ,predict,问题是预处理部分的代码都很类似。没必要每个例子都重复一遍的。不够简洁,也许这就是cookbook的特点吧
本书(《Python 机器学习经典实例》)的标题“经典实例”让我非常感兴趣。
一直认为学习任何新事物,先上手实现简单的demo,再分析这个demo做了什么,怎么做,才能更快的学习。如果是在初始阶段就大量的学习理论,只会对要学习的东西感到痛苦,“这个有什么用啊?”或者“虽然每个字都能看懂,但放一起就不知道在说什么了”。幸运的是本书就同书名一样,上手就是实例,也穿插了必要的专有名词解释,总体来说还是能够跟得上进度。并且给出了所使用的数据,能够和书中得到相同的结果,这一反馈更能够增强学习的意愿与兴趣。但是另一方面,只给出“结果”,而没有“原因”,在一定程度上只是学会了“书里面的知识”,而无法从虚拟的例子映射到实际的现实问题。但鱼和熊掌不可得兼,专注做好一件事,对于“机器学习”的通俗解释,可以从另一本书中找到答案(还没找到这本书)。
专业评价
用火的Python语言、通过各种各样的机器学习算法来解决实际问题!书中介绍的主要问题如下。
- 探索分类分析算法并将其应用于收入等级评估问题
- 使用预测建模并将其应用到实际问题中
- 了解如何使用无监督学习来执行市场细分
- 探索数据可视化技术以多种方式与数据进行交互
- 了解如何构建推荐引擎
- 理解如何与文本数据交互并构建模型来分析它
- 使用隐马尔科夫模型来研究语音数据并识别语音
内容简介
在如今这个处处以数据驱动的世界中,机器学习正变得越来越大众化。它已经被广泛地应用于不同领域,如搜索引擎、机器人、无人驾驶汽车等。本书首先通过实用的案例介绍机器学习的基础知识,然后介绍一些稍微复杂的机器学习算法,例如支持向量机、极端随机森林、隐马尔可夫模型、条件随机场、深度神经网络,等等。
本书是为想用机器学习算法开发应用程序的Python 程序员准备的。它适合Python 初学者阅读,不过熟悉Python 编程方法对体验示例代码大有裨益。
目录
- 第1章 监督学习 1
- 第2章 创建分类器 24
- 第3章 预测建模 48
- 第4章 无监督学习——聚类 67
- 第5章 构建推荐引擎 91
- 第6章 分析文本数据 112
- 第7章 语音识别 132
- 第8章 解剖时间序列和时序数据 147
- 第9章 图像内容分析 166
- 第10章 人脸识别 189
- 第11章 深度神经网络 210
- 第12章 可视化数据 230
无监督学习经典模型 无监督学习着重于发现数据本身的分布特点 无监督学习不需要对数据进行标记 节省大量人力 也让数据的规模 变得不可限量 1 发现数据群落 数据聚类 也可以寻找 离群样本 2 特征降维 保留数据具有区分性的低维特征 这些都是在海量数据处理中非常实用的技术 数据聚类 K均值算法(预设聚类的个数 不断更新聚类中心 迭代 ,是所有数据点到其所属聚类中心距离平方和趋于稳定) 过程 ①首先 随机布设K个特证空间内的点作为初始的聚类中心 ②然后 对于根据每个数据的特征向量 从K个聚类中心中 寻找距离最近的一个 并且把该数据标记为从属与这个聚类中心 ③接着 在所有数据都被标记了聚类中心之后 根据这些数据新分配的类簇 重新对K个聚类中心做计算 ④如果一轮下来 所有数据从属的聚类中心与上一次的分配的类簇没有变化 那么迭代可以 停止 否则回到②继续循环
数据工作的基本流程 定义问题: 我们首先需要解决的是我们将面临一个什么问题,需要我们做什么,俗话说的磨刀不误砍柴工,首先看清对手是谁才能有的放矢。 收集数据: 根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。 准备消费数据: 把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。如果执行多数的数据挖掘算法,即使是在少量数据上也需要很长的时间,而做商业运营数据挖掘时数据量往往非常大。数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。在数据库中的数据有一些是不完整的(有些感兴趣的属性缺少属性值)、含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。不然,挖掘的结果会差强人意。通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步。 探索性分析: 根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。 数据建模: 像描述性和推论性统计数据一样,数据建模可以总结数据或预测未来的结果。 您的数据集和预期结果将决定可供使用的算法。 重要的是要记住,算法是工具,而不是魔杖。 你仍然必须是知道如何为工作选择正确的工具的工匠。 一个比喻就是要求有人给你一把飞利浦剃须刀,他们给你一把螺丝刀或者一把锤子。 充其量,它显示完全缺乏了解。 最糟糕的是,这使得项目不可能完成。 数据建模也是如此。 错误的模型可能导致最差的表现,甚至会导致错误的结论。 模型验证和模型使用: 用训练数据对模型进行训练之后,就可以用于预测数据。
深度学习无处不在。深度学习建立在几十年前的神经网络的基础上,但是最近的进步始于几年前,并极大地提高了深度神经网络的认知能力,引起了人们的广泛兴趣。如果你对神经网络还不熟悉,KDnuggets 有很多文章详细介绍了最近深度学习大量的创新、成就和赞许。
如果我们打算利用 Python 来执行机器学习,那么对 Python 有一些基本的了解就是至关重要的。幸运的是,因为 Python 是一种得到了广泛使用的通用编程语言,加上其在科学计算和机器学习领域的应用,所以找到一个初学者教程并不十分困难。你在 Python 和编程上的经验水平对于起步而言是至关重要的。