内容简介
本书是机器学习及数据分析领域不可多得的一本著作,也是为数不多的既有大量实践应用案例又包含算法理论剖析的著作,作者针对机器学习算法既抽象复杂又涉及多门数学学科的特点,力求理论联系实际,始终以算法应用为主线,由浅入深以全新的角度诠释机器学习。
全书分为准备篇、基础篇、统计分析实战篇和机器学习实战篇。准备篇介绍了机器学习的发展及应用前景以及常用科学计算平台,主要包括统计分析语言R、机器学习模块mlpy和Neurolab、科学计算平台Numpy、图像识别软件包OpenCV、网页分析beautifulsoup等软件的安装与配置。基础篇先对数学基础及其在机器学习领域的应用进行讲述,同时推荐配套学习的数学书籍,然后运用实例说明计算平台的使用,以Python和R为实现语言,重点讲解了图像算法、信息隐藏、最小二乘法拟合、因子频率分析、欧氏距离等,告诉读者如何使用计算平台完成工程应用。最后,通过大量统计分析和机器学习案例提供实践指南,首先讲解回归分析、区间分布、数据图形化、分布趋势、正态分布、分布拟合等数据分析基础,然后讲解神经网络、统计算法、欧氏距离、余弦相似度、线性与非线性回归、数据拟合、线性滤波、图像识别、人脸辨识、网页分类等机器学习算法。此书可供算法工程师、IT专业人员以及机器学习爱好者参考使用。
封面图
目录
- 前言
- 第一部分 准备篇
- 第1章 机器学习发展及应用前景2
- 1.1 机器学习概述2
- 1.1.1 什么是机器学习3
- 1.1.2 机器学习的发展3
- 1.1.3 机器学习的未来4
- 1.2 机器学习应用前景5
- 1.2.1 数据分析与挖掘5
- 1.2.2 模式识别5
- 1.2.3 更广阔的领域6
- 1.3 小结7
- 第2章 科学计算平台8
- 2.1 科学计算软件平台概述8
- 2.1.1 常用的科学计算软件9
- 2.1.2 本书使用的工程计算平台10
- 2.2 计算平台的配置11
- 2.2.1 Numpy等Python科学计算包的安装与配置11
- 2.2.2 OpenCV 安装与配置13
- 2.2.3 mlpy 安装与配置14
- 2.2.4 BeautifulSoup安装与配置15
- 2.2.5 Neurolab安装与配置15
- 2.2.6 R安装与配置15
- 2.3 小结16
- 第二部分 基础篇
- 第3章 机器学习数学基础18
- 3.1 数学对我们有用吗18
- 3.2 机器学习需要哪些数学知识20
- 3.3 小结25
- 第4章 计算平台应用实例26
- 4.1 Python计算平台简介及应用实例26
- 4.1.1 Python语言基础26
- 4.1.2 Numpy库37
- 4.1.3 pylab、matplotlib绘图44
- 4.1.4 图像基础46
- 4.1.5 图像融合与图像镜像55
- 4.1.6 图像灰度化与图像加噪57
- 4.1.7 声音基础60
- 4.1.8 声音音量调节63
- 4.1.9 图像信息隐藏68
- 4.1.10 声音信息隐藏72
- 4.2 R语言基础78
- 4.2.1 基本操作78
- 4.2.2 向量81
- 4.2.3 对象集属性87
- 4.2.4 因子和有序因子88
- 4.2.5 循环语句89
- 4.2.6 条件语句89
- 4.3 R语言科学计算90
- 4.3.1 分类(组)统计90
- 4.3.2 数组与矩阵基础91
- 4.3.3 数组运算94
- 4.3.4 矩阵运算95
- 4.4 R语言计算实例103
- 4.4.1 学生数据集读写103
- 4.4.2 最小二乘法拟合105
- 4.4.3 交叉因子频率分析106
- 4.4.4 向量模长计算107
- 4.4.5 欧氏距离计算108
- 4.5 小结109
- 思考题109
- 第三部分 统计分析实战篇
- 第5章 统计分析基础112
- 5.1 数据分析概述112
- 5.2 数学基础113
- 5.3 回归分析118
- 5.3.1 单变量线性回归118
- 5.3.2 多元线性回归121
- 5.3.3 非线性回归121
- 5.4 数据分析基础124
- 5.4.1 区间频率分布124
- 5.4.2 数据直方图126
- 5.4.3 数据散点图127
- 5.4.4 五分位数 129
- 5.4.5 累积分布函数130
- 5.4.6 核密度估计130
- 5.5 数据分布分析132
- 5.6 小结134
- 思考题135
- 第6章 统计分析案例136
- 6.1 数据图形化案例解析136
- 6.1.1 点图136
- 6.1.2 饼图和条形图137
- 6.1.3 茎叶图和箱线图138
- 6.2 数据分布趋势案例解析140
- 6.2.1 平均值140
- 6.2.2 加权平均值140
- 6.2.3 数据排序141
- 6.2.4 中位数142
- 6.2.5 极差、半极差142
- 6.2.6 方差143
- 6.2.7 标准差143
- 6.2.8 变异系数、样本平方和143
- 6.2.9 偏度系数、峰度系数144
- 6.3 正态分布案例解析145
- 6.3.1 正态分布函数145
- 6.3.2 峰度系数分析146
- 6.3.3 累积分布概率146
- 6.3.4 概率密度函数147
- 6.3.5 分位点148
- 6.3.6 频率直方图151
- 6.3.7 核概率密度与正态概率分布图151
- 6.3.8 正太检验与分布拟合152
- 6.3.9 其他分布及其拟合154
- 6.4 小结155
- 思考题155
- 第四部分 机器学习实战篇
- 第7章 机器学习算法158
- 7.1 神经网络158
- 7.1.1 Rosenblatt感知器159
- 7.1.2 梯度下降 173
- 7.1.3 反向传播与多层感知器180
- 7.1.4 Python神经网络库199
- 7.2 统计算法201
- 7.2.1 平均值201
- 7.2.2 方差与标准差203
- 7.2.3 贝叶斯算法205
- 7.3 欧氏距离208
- 7.4 余弦相似度209
- 7.5 SVM 210
- 7.5.1 数学原理210
- 7.5.2 SMO算法212
- 7.5.3 算法应用212
- 7.6 回归算法217
- 7.6.1 线性代数基础217
- 7.6.2 最小二乘法原理218
- 7.6.3 线性回归219
- 7.6.4 多元非线性回归221
- 7.6.5 岭回归方法223
- 7.6.6 伪逆方法224
- 7.7 PCA降维225
- 7.8 小结227
- 思考题227
- 第8章 数据拟合案例228
- 8.1 数据拟合228
- 8.1.1 图像分析法228
- 8.1.2 神经网络拟合法240
- 8.2 线性滤波256
- 8.2.1 WAV声音文件256
- 8.2.2 线性滤波算法过程256
- 8.2.3 滤波Python实现257
- 8.3 小结262
- 思考题262
- 第9章 图像识别案例264
- 9.1 图像边缘算法264
- 9.1.1 数字图像基础264
- 9.1.2 算法描述265
- 9.2 图像匹配266
- 9.2.1 差分矩阵求和267
- 9.2.2 差分矩阵均值269
- 9.2.3 欧氏距离匹配271
- 9.3 图像分类277
- 9.3.1 余弦相似度277
- 9.3.2 PCA图像特征提取算法283
- 9.3.3 基于神经网络的图像分类284
- 9.3.4 基于SVM的图像分类289
- 9.4 人脸辨识291
- 9.4.1 人脸定位291
- 9.4.2 人脸辨识293
- 9.5 手写数字识别300
- 9.5.1 手写数字识别算法300
- 9.5.2 算法的Python实现301
- 9.6 小结303
- 思考题304
- 第10章 文本分类案例305
- 10.1 文本分类概述305
- 10.2 余弦相似度分类306
- 10.2.1 中文分词306
- 10.2.2 停用词清理308
- 10.2.3 算法实战310
- 10.3 朴素贝叶斯分类315
- 10.3.1 算法描述316
- 10.3.2 先验概率计算316
- 10.3.3 最大后验概率316
- 10.3.4 算法实现317
- 10.4 小结323
- 思考题323