《SQL机器学习库MADlib技术解析》是由清华大学出版社出版的一本关于MADlib方面的书籍,作者是王雪迎,主要介绍了关于SQL、机器学习、MADlib、技术解析方面的知识内容,目前在MADlib类书籍综合评分为:9.2分。
书籍介绍
做为一名数据库查询开发者或DBA,当应对聚类分析或主成分分析等难题时将会会一筹莫展。原因很简单,用經典SQL言语保持这种繁杂模型基础是不太可能的。如今,DBA运用MADlib,只需应用SQL查寻就能保持简易的机器学习,这也更是撰写这书的初心。MADlib与别的机器学习专用工具具备彻底不一样的设计构思。它并不是朝向程序猿的,只是朝向数据库查询开发者或DBA的,是根据SQL的互联网大数据机器学习库。MADlib将SQL的简易可维护性与机器学习的繁杂算法紧密结合,灵活运用了二者的优点和特性。针对众多传统式数据库查询运用专业技术人员而言,学习培训和从业机器学习工作中的门坎将大幅度降低。对客户来讲,MADlib提供了可在SQL查寻句子中启用的函数,不但包含基础的线性代数与运算和统计函数,还提供了常见的、制好的设备学习模型函数,保持了归类、聚类算法、关系、重归、预测分析、评定等运用中的常用算法。客户不用深层次掌握算法的程序实现关键点,要是弄清楚各函数中有关主要参数的含意、提供恰当的入参并可以了解和表述函数的輸出結果就能。MADlib是一套SQL中的互联网大数据机器学习库。一般SQL查寻能发觉统计数据*显著的方式和发展趋势,但是想读取数据中*为有效的信息内容,必须的则是一套坚固投身于数学课和应用数学的专业技能,这就是说机器学习。假如将SQL的简易实用与MADlib机器学习的繁杂算法结合在一起,就能保持简易的机器学习作用。 这书分成11章,从MADlib的基本要素、MADlib的构架、兼容的模型种类与作用下手,详尽分析MADlib各种各样模型的实际使用方法,包含数据类型、矩阵分解、数据转换、统计数据探寻、主成分分析、重归、时间序列分析、归类、聚类算法、关联规则、图算法、模型评定等。每个模型将从背景图专业知识、函数英语的语法、运用范例三层面开展 表明。 这书合适MADlib机器学习的新手、想学习培训MADlib机器学习的DBA及其从业数据统计分析与发掘的高級专业技术人员阅读文章,也合适高等学校与培训机构有关技术专业的老师学生课堂教学参照
目录
- 第1章 MADlib基础 1
- 1.1 基本概念 1
- 1.1.1 MADlib是什么 1
- 1.1.2 MADlib的设计思想 2
- 1.1.3 MADlib的工作原理 3
- 1.1.4 MADlib的执行流程 4
- 1.1.5 MADlib架构 5
- 1.2 MADlib的功能 6
- 1.2.1 MADlib支持的模型类型 6
- 1.2.2 MADlib的主要功能模块 7
- 1.3 MADlib的安装与卸载 9
- 1.3.1 确定安装平台 9
- 1.3.2 下载MADlib二进制压缩包 10
- 1.3.3 安装MADlib 10
- 1.3.4 卸载MADlib 12
- 1.4 小结 13
- 第2章 数据类型 14
- 2.1 向量 14
- 2.1.1 MADlib中的向量操作函数 15
- 2.1.2 稀疏向量 23
- 2.2 矩阵 30
- 2.2.1 矩阵定义 31
- 2.2.2 MADlib中的矩阵表示 31
- 2.2.3 MADlib中的矩阵运算函数 32
- 2.3 小结 49
- 第3章 数据转换 50
- 3.1 邻近度 50
- 3.1.1 MADlib的邻近度相关函数 50
- 3.1.2 距离度量的中心化和标准化 57
- 3.1.3 选取正确的邻近度度量 58
- 3.2 矩阵分解 59
- 3.2.1 低秩矩阵分解 59
- 3.2.2 奇异值分解 70
- 3.3 透视表 87
- 3.4 分类变量编码 97
- 3.5 小结 110
- 第4章 数据探索 111
- 4.1 描述性统计 111
- 4.1.1 皮尔森相关 111
- 4.1.2 汇总统计 117
- 4.2 概率统计 125
- 4.2.1 概率 125
- 4.2.2 统计推论 133
- 4.3 主成分分析 147
- 4.3.1 背景知识 147
- 4.3.2 MADlib的PCA相关函数 149
- 4.3.3 MADlib的PCA应用示例 155
- 4.4 小结 160
- 第5章 回归 161
- 5.1 线性回归 161
- 5.1.1 背景知识 161
- 5.1.2 MADlib的线性回归相关函数 164
- 5.1.3 线性回归示例 166
- 5.2 非线性回归 171
- 5.2.1 背景知识 171
- 5.2.2 MADlib的非线性回归相关
- 函数 172
- 5.2.3 非线性回归示例 175
- 5.3 逻辑回归 179
- 5.3.1 背景知识 179
- 5.3.2 MADlib的逻辑回归相关函数 180
- 5.3.3 逻辑回归示例 182
- 5.4 多类回归 187
- 5.4.1 背景知识 187
- 5.4.2 MADlib的多类回归相关函数 190
- 5.4.3 多类回归示例 192
- 5.5 序数回归 196
- 5.5.1 背景知识 196
- 5.5.2 MADlib的序数回归相关函数 197
- 5.5.3 序数回归示例 200
- 5.6 弹性网络回归 202
- 5.6.1 背景知识 202
- 5.6.2 MADlib的弹性网络回归相关
- 函数 204
- 5.6.3 弹性网络回归示例 209
- 5.7 小结 221
- 第6章 时间序列分析 222
- 6.1 背景知识 222
- 6.1.1 时间序列分析方法 222
- 6.1.2 ARIMA模型 223
- 6.2 MADlib中ARIMA相关函数 225
- 6.3 时间序列分析示例 228
- 6.4 小结 232
- 第7章 分类 233
- 7.1 K近邻 233
- 7.1.1 背景知识 233
- 7.1.2 MADlib中K近邻函数 235
- 7.1.3 K近邻示例 236
- 7.2 朴素贝叶斯 240
- 7.2.1 背景知识 240
- 7.2.2 MADlib中朴素贝叶斯分类
- 相关函数 242
- 7.2.3 朴素贝叶斯分类示例 244
- 7.3 支持向量机 249
- 7.3.1 背景知识 249
- 7.3.2 MADlib的支持向量机相关
- 函数 252
- 7.3.3 支持向量机示例 258
- 7.4 决策树 264
- 7.4.1 背景知识 264
- 7.4.2 MADlib的决策树相关函数 267
- 7.4.3 决策树示例 272
- 7.5 随机森林 281
- 7.5.1 背景知识 281
- 7.5.2 MADlib的随机森林相关函数 282
- 7.5.3 随机森林示例 287
- 7.6 小结 293
- 第8章 聚类 294
- 8.1 背景知识 294
- 8.1.1 聚类的概念 294
- 8.1.2 k-means方法 295
- 8.2 MADlib的k-means相关函数 297
- 8.2.1 训练函数 298
- 8.2.2 簇分配函数 300
- 8.2.3 轮廓系数函数 301
- 8.3 k-means示例 301
- 8.4 小结 307
- 第9章 关联规则 308
- 9.1 背景知识 308
- 9.1.1 基本概念 308
- 9.1.2 Apriori算法 311
- 9.2 MADlib的Apriori算法函数 312
- 9.3 Apriori应用示例 313
- 9.4 小结 319
- 第10章 图算法 320
- 10.1 背景知识 320
- 10.1.1 基本概念 320
- 10.1.2 常见图算法 321
- 10.1.3 单源最短路径 323
- 10.2 MADlib的单源最短路径相关函数 324
- 10.3 单源最短路径示例 325
- 10.4 小结 327
- 第11章 模型评估 328
- 11.1 交叉验证 328
- 11.1.1 背景知识 328
- 11.1.2 MADlib的交叉验证相关
- 函数 331
- 11.1.3 交叉验证示例 333
- 11.2 预测度量 336
- 11.3 小结 342