《机器学习实践指南》第2版比第1版增加了更多的案例和算法解析,全书详细介绍了机器学习发展及应用前景、科学计算平台、Python计算平台应用、R语言计算平台应用、生产环境基础、统计分析基础、描述性分析案例、假设检验与回归模型案例、神经网络、统计算法、欧氏距离与余弦相似度、SVM、回归算法、PCA降维、关联规则、聚类与分类算法、数据拟合案例、图像算法案例、机器视觉案例、文本分类案例等机器学习实践与应用。
目录
- 推荐序
- 前言
- 第一部分 准备篇
- 第1章 机器学习发展及应用前景 2
- 1.1 机器学习概述 2
- 1.1.1 什么是机器学习 3
- 1.1.2 机器学习的发展 3
- 1.1.3 机器学习的未来 4
- 1.2 机器学习应用前景 5
- 1.2.1 数据分析与挖掘 5
- 1.2.2 模式识别 6
- 1.2.3 更广阔的领域 6
- 1.3 小结 7
- 第2章 科学计算平台 8
- 2.1 科学计算软件平台概述 9
- 2.1.1 常用的科学计算软件 9
- 2.1.2 本书使用的工程计算平台 10
- 2.2 计算平台的配置 11
- 2.2.1 Numpy等Python科学计算包的安装与配置 11
- 2.2.2 OpenCV 安装与配置 14
- 2.2.3 mlpy 安装与配置 14
- 2.2.4 BeautifulSoup安装与配置 15
- 2.2.5 Neurolab安装与配置 15
- 2.2.6 R安装与配置 16
- 2.3 小结 16
- 第二部分 基础篇
- 第3章 计算平台应用实例 18
- 3.1 Python计算平台简介及应用实例 18
- 3.1.1 Python语言基础 18
- 3.1.2 Numpy库 29
- 3.1.3 pylab、matplotlib绘图 36
- 3.1.4 图像基础 38
- 3.1.5 图像融合与图像镜像 46
- 3.1.6 图像灰度化与图像加噪 48
- 3.1.7 声音基础 51
- 3.1.8 声音音量调节 53
- 3.1.9 图像信息隐藏 58
- 3.1.10 声音信息隐藏 62
- 3.2 R语言基础 68
- 3.2.1 基本操作 69
- 3.2.2 向量 71
- 3.2.3 对象集属性 77
- 3.2.4 因子和有序因子 78
- 3.2.5 循环语句 79
- 3.2.6 条件语句 79
- 3.3 R语言科学计算 80
- 3.3.1 分类(组)统计 80
- 3.3.2 数组与矩阵基础 81
- 3.3.3 数组运算 84
- 3.3.4 矩阵运算 85
- 3.4 R语言计算实例 93
- 3.4.1 学生数据集读写 93
- 3.4.2 最小二乘法拟合 94
- 3.4.3 交叉因子频率分析 96
- 3.4.4 向量模长计算 97
- 3.4.5 欧氏距离计算 98
- 3.5 小结 99
- 思考题 99
- 第4章 生产环境基础 100
- 4.1 Windows Server 2008基础 100
- 4.1.1 Windows Server 2008 R2概述 101
- 4.1.2 Windows PowerShell 102
- 4.2 Linux基础 103
- 4.2.1 Linux命令 104
- 4.2.2 Shell基础 114
- 4.3 Vim编辑器 122
- 4.3.1 Vim编辑器概述 122
- 4.3.2 Vim常用命令 123
- 4.4 虚拟化平台 124
- 4.4.1 Citrix Xenserver概述 125
- 4.4.2 Citrix Xenserver部署 126
- 4.4.3 基于XenCenter的虚拟服务器管理 126
- 4.5 Linux环境下的NumPy安装 135
- 4.6 Linux环境下的R运行环境 136
- 4.7 PyPy编译器 136
- 4.7.1 PyPy概述 136
- 4.7.2 PyPy安装与配置 137
- 4.7.3 PyPy性能 137
- 4.7.4 PyPy实践之Lempel-Ziv压缩 138
- 4.8 小结 145
- 思考题 146
- 第三部分 统计分析实战篇
- 第5章 统计分析基础 148
- 5.1 数据分析概述 148
- 5.2 数学基础 149
- 5.3 回归分析 154
- 5.3.1 单变量线性回归 154
- 5.3.2 多元线性回归 156
- 5.3.3 非线性回归 157
- 5.4 数据分析基础 159
- 5.4.1 区间频率分布 159
- 5.4.2 数据直方图 161
- 5.4.3 数据散点图 162
- 5.4.4 五分位数 164
- 5.4.5 累积分布函数 165
- 5.4.6 核密度估计 166
- 5.5 数据分布分析 167
- 5.6 小结 169
- 思考题 170
- 第6章 描述性分析案例 171
- 6.1 数据图形化案例解析 171
- 6.1.1 点图 171
- 6.1.2 饼图和条形图 172
- 6.1.3 茎叶图和箱线图 173
- 6.2 数据分布趋势案例解析 175
- 6.2.1 平均值 175
- 6.2.2 加权平均值 175
- 6.2.3 数据排序 176
- 6.2.4 中位数 177
- 6.2.5 极差、半极差 177
- 6.2.6 方差 178
- 6.2.7 标准差 178
- 6.2.8 变异系数、样本平方和 178
- 6.2.9 偏度系数、峰度系数 179
- 6.3 正态分布案例解析 180
- 6.3.1 正态分布函数 180
- 6.3.2 峰度系数分析 181
- 6.3.3 累积分布概率 181
- 6.3.4 概率密度函数 182
- 6.3.5 分位点 183
- 6.3.6 频率直方图 185
- 6.3.7 核概率密度与正态概率分布图 185
- 6.3.8 正态检验与分布拟合 186
- 6.3.9 其他分布及其拟合 188
- 6.4 多变量分析 189
- 6.4.1 多变量数据分析 189
- 6.4.2 多元数据相关性分析 197
- 6.5 小结 201
- 思考题 201
- 第7章 假设检验与回归模型案例 202
- 7.1 假设检验 202
- 7.1.1 二项分布假设检验 202
- 7.1.2 数据分布检验 204
- 7.1.3 正态总体均值检验 205
- 7.1.4 列联表 206
- 7.1.5 符号检测 207
- 7.1.6 秩相关检验 210
- 7.1.7 Kendall相关检验 213
- 7.2 回归模型 214
- 7.2.1 回归预测与显著性检验 214
- 7.2.2 回归诊断 216
- 7.2.3 回归优化 217
- 7.2.4 主成分回归 219
- 7.2.5 广义线性模型 221
- 7.3 小结 226
- 思考题 226
- 第四部分 机器学习实战篇
- 第8章 机器学习算法 230
- 8.1 神经网络 230
- 8.1.1 Rosenblatt感知器 232
- 8.1.2 梯度下降 245
- 8.1.3 反向传播与多层感知器 251
- 8.1.4 Python神经网络库 270
- 8.2 统计算法 272
- 8.2.1 平均值 272
- 8.2.2 方差与标准差 274
- 8.2.3 贝叶斯算法 276
- 8.3 欧氏距离 279
- 8.4 余弦相似度 280
- 8.5 SVM 281
- 8.5.1 数学原理 281
- 8.5.2 SMO算法 283
- 8.5.3 算法应用 283
- 8.6 回归算法 287
- 8.6.1 线性代数基础 288
- 8.6.2 最小二乘法原理 289
- 8.6.3 线性回归 290
- 8.6.4 多元非线性回归 292
- 8.6.5 岭回归方法 294
- 8.6.6 伪逆方法 295
- 8.7 PCA降维 296
- 8.8 关联规则 297
- 8.8.1 关联规则概述 297
- 8.8.2 频繁项集算法 298
- 8.8.3 关联规则生成 301
- 8.8.4 实例分析 302
- 8.9 自动分类 306
- 8.9.1 聚类算法 306
- 8.9.2 决策树 313
- 8.9.3 AdaBoost 316
- 8.9.4 竞争型神经网络 317
- 8.9.5 Hamming神经网络 323
- 8.10 小结 325
- 思考题 325
- 第9章 数据拟合案例 327
- 9.1 数据拟合 327
- 9.1.1 图像分析法 327
- 9.1.2 神经网络拟合法 338
- 9.2 线性滤波 352
- 9.2.1 WAV声音文件 352
- 9.2.2 线性滤波算法过程 352
- 9.2.3 滤波Python实现 353
- 9.3 数据或曲线平滑 358
- 9.3.1 平滑概述 358
- 9.3.2 移动平均 359
- 9.3.3 递归线性过滤 362
- 9.3.4 指数平滑 364
- 9.4 小结 368
- 思考题 368
- 第10章 图像算法案例 370
- 10.1 图像边缘算法 370
- 10.1.1 数字图像基础 370
- 10.1.2 算法描述 371
- 10.2 图像匹配 372
- 10.2.1 差分矩阵求和 373
- 10.2.2 差分矩阵均值 375
- 10.2.3 欧氏距离匹配 376
- 10.3 图像分类 382
- 10.3.1 余弦相似度 382
- 10.3.2 PCA图像特征提取算法 388
- 10.3.3 基于神经网络的图像分类 389
- 10.3.4 基于SVM的图像分类 394
- 10.4 高斯噪声生成 397
- 10.5 二值化 401
- 10.5.1 threshold 401
- 10.5.2 adaptiveThreshold 402
- 10.6 插值与缩放 404
- 10.7 仿射 405
- 10.7.1 仿射原理 405
- 10.7.2 仿射变换实例 405
- 10.8 透视投影与透视变换 406
- 10.8.1 透视投影原理 406
- 10.8.2 透视投影实例 407
- 10.9 灰度变换与图像增强 409
- 10.9.1 灰度变换概述 409
- 10.9.2 对数变换 409
- 10.9.3 分段线性变换 410
- 10.9.4 指数变换 411
- 10.9.5 直方图均衡化 412
- 10.10 图像滤波与除噪 415
- 10.10.1 均一化块滤波 415
- 10.10.2 邻域平均法 420
- 10.10.3 中值滤波 423
- 10.10.4 高斯滤波 427
- 10.10.5 双边滤波 429
- 10.10.6 卷积滤波 431
- 10.10.7 边缘检测 433
- 10.11 小结 435
- 思考题 435
- 第11章 机器视觉案例 437
- 11.1 人脸辨识 437
- 11.1.1 人脸定位 437
- 11.1.2 人脸辨识 439
- 11.2 手写数字识别 446
- 11.2.1 手写数字识别算法 446
- 11.2.2 算法的Python实现 447
- 11.3 运动侦测 449
- 11.3.1 视频采集 450
- 11.3.2 差分算法 452
- 11.3.3 光流法 456
- 11.4 形状检测 458
- 11.4.1 KNN算法概述 458
- 11.4.2 形状特征提取 459
- 11.4.3 形状分类 459
- 11.5 小结 462
- 思考题 462
- 第12章 文本分类案例 463
- 12.1 文本分类概述 463
- 12.2 余弦相似度分类 464
- 12.2.1 中文分词 465
- 12.2.2 停用词清理 467
- 12.2.3 算法实战 468
- 12.3 朴素贝叶斯分类 473
- 12.3.1 算法描述 473
- 12.3.2 先验概率计算 474
- 12.3.3 最大后验概率 474
- 12.3.4 算法实现 474
- 12.4 自然语言处理 480
- 12.4.1 NLTK简介 480
- 12.4.2 NLTK与jieba的配置 481
- 12.4.3 中文分词并标注词性 483
- 12.4.4 词特征指标分析 484
- 12.4.5 Web文档分析 499
- 12.4.6 Web文档的朴素贝叶斯分类 503
- 12.4.7 语法结构分析 515
- 12.4.8 Web文档聚类 518
- 12.5 小结 526
- 思考题 526