内容介绍
《Python机器学习》通过解释数学原理和展示编程示例对机器学习进行了系统、全面的解析。《Python机器学习》共分为12章,内容涵盖了机器学习以及Python语言的基础知识、特征工程的概念与操作技术、数据可视化技术的实现、监督学习及无监督学习算法、文本分析、神经网络和深度学习、推荐系统的构建方法以及预测处理时间序列的方法等。阅读《Python机器学习》能够加深读者对机器学习的认识和理解,从而达到理论与实践相结合、学以致用的目的。 《Python机器学习》适合Python程序员、数据分析人员、对机器学习感兴趣的读者以及机器学习领域的从业人员阅读。
作者介绍
Abhishek Vijayvargia是一位数据科学家,他活跃在IT技术领域,并解决了与数据科学和机器学习相关的实时问题。他专注于数据分析,涉及的领域包括运输业、政府工程、石油和天然气以及物联网等。 他获得了印度理工学院坎普尔分校的人工智能专业硕士学位,关注方向是分布式机器学习、深度学习、流处理和区块链。他担任各种机器学习课题的导师,并进行其他算法、数据方面的培训。
目录
- 第 1章 走进机器学习 1
- 1.1 机器学习概述 1
- 1.2 机器学习过程 2
- 第 2章 了解Python 20
- 2.1 为什么选择Python 20
- 2.2 下载和安装Python 22
- 2.2.1 在Windows中安装Python 22
- 2.2.2 Anaconda 24
- 2.3 *个Python程序 26
- 2.4 Python基础 27
- 2.5 数据结构与循环 36
- 第3章 特征工程 42
- 3.1 什么是特征 42
- 3.2 为什么执行特征工程 43
- 3.3 特征提取 43
- 3.4 特征选择 43
- 3.5 特征工程方法——通用准则 44
- 3.5.1 处理数值特征 44
- 3.5.2 处理分类特征 45
- 3.5.3 处理基于时间的特征 47
- 3.5.4 处理文本特征 47
- 3.5.5 缺失数据 48
- 3.5.6 降维 48
- 3.6 用Python进行特征工程 49
- 3.6.1 Pandas基本操作 49
- 3.6.2 常见任务 57
- 第4章 数据可视化 62
- 4.1 折线图 63
- 4.2 条形图 66
- 4.3 饼图 67
- 4.4 直方图 68
- 4.5 散点图 69
- 4.6 箱线图 70
- 4.7 采用面向对象的方式绘图 71
- 4.8 Seaborn 73
- 4.8.1 分布图 74
- 4.8.2 双变量分布 75
- 4.8.3 二元分布的核密度估计 75
- 4.8.4 成对双变量分布 76
- 4.8.5 分类散点图 76
- 4.8.6 小提琴图 77
- 4.8.7 点图 78
- 第5章 回归 79
- 5.1 简单回归 80
- 5.2 多元回归 92
- 5.3 模型评价 94
- 5.3.1 训练误差 95
- 5.3.2 泛化误差 96
- 5.3.3 测试误差 97
- 5.3.4 不可约误差 98
- 5.3.5 偏差—方差权衡 99
- 第6章 更多回归 105
- 6.1 概述 105
- 6.2 岭回归 112
- 6.3 套索回归 118
- 6.3.1 全子集算法 118
- 6.3.2 用于特征选择的贪心算法 119
- 6.3.3 特征选择的正则化 119
- 6.4 非参数回归 122
- 6.4.1 K-*近邻回归 124
- 6.4.2 核回归 127
- 第7章 分类 128
- 7.1 线性分类器 129
- 7.2 逻辑回归 133
- 7.3 决策树 147
- 7.3.1 关于树的术语 148
- 7.3.2 决策树学习 149
- 7.3.3 决策边界 151
- 7.4 随机森林 158
- 7.5 朴素贝叶斯 164
- 第8章 无监督学习 169
- 8.1 聚类 170
- 8.2 K-均值聚类 170
- 8.2.1 随机分配聚类质心的问题 175
- 8.2.2 查找K的值 175
- 8.3 分层聚类 182
- 8.3.1 距离矩阵 184
- 8.3.2 连接 185
- 第9章 文本分析 189
- 9.1 使用Python进行基本文本处理 189
- 9.1.1 字符串比较 191
- 9.1.2 字符串转换 191
- 9.1.3 字符串操作 192
- 9.2 正则表达式 193
- 9.3 自然语言处理 195
- 9.3.1 词干提取 196
- 9.3.2 词形还原 197
- 9.3.3 分词 197
- 9.4 文本分类 200
- 9.5 主题建模 206
- 第 10章 神经网络与深度学习 209
- 10.1 矢量化 210
- 10.2 神经网络 218
- 10.2.1 梯度下降 220
- 10.2.2 激活函数 221
- 10.2.3 参数初始化 224
- 10.2.4 优化方法 227
- 10.2.5 损失函数 227
- 10.3 深度学习 229
- 10.4 深度学习架构 230
- 10.4.1 深度信念网络 231
- 10.4.2 卷积神经网络 231
- 10.4.3 循环神经网络 231
- 10.4.4 长短期记忆网络 231
- 10.4.5 深度堆栈网络 232
- 10.5 深度学习框架 232
- 第 11章 推荐系统 237
- 11.1 基于流行度的推荐引擎 237
- 11.2 基于内容的推荐引擎 240
- 11.3 基于分类的推荐引擎 243
- 11.4 协同过滤 245
- 第 12章 时间序列分析 249
- 12.1 处理日期和时间 249
- 12.2 窗口函数 254
- 12.3 相关性 258
- 12.4 时间序列预测 261