《颠覆大数据分析:基于Storm、Spark等Hadoop替代技术的实时应用》每章一个主题,介绍了各种大数据分析技术与机器学习算法。本书能够让读者掌握大数据分析和机器学习的相关技术的大致脉络,为之后的进阶学习提供参考与指导。本书适合大数据技术入门者、希望对大数据技术有所了解,以及想要学习大数据技术但是不知道应该从何处入手的读者阅读。
目录
- 前言
- 致谢
- 关于作者
- 1 引言:为什么要超越 Hadoop Map-Reduce
- Hadoop的适用范围
- 大数据分析之机器学习实现的革命
- 第一代机器学习工具/范式
- 第二代机器学习工具/范式
- 第三代机器学习工具/范式
- 小结
- 参考文献
- 2 何为伯克利数据分析栈(BDAS)
- 实现 BDAS的动机
- Spark:动机
- Shark:动机
- Mesos:动机
- BDAS的设计及架构
- Spark:高效的集群数据处理的范式
- Spark的弹性分布式数据集
- Spark的实现
- Spark VS分布式共享内存系统
- RDD的表达性
- 类似 Spark的系统
- Shark:分布式系统上的 SQL接口
- Spark为 Shark提供的扩展
- 列内存存储
- 分布式数据加载
- 完全分区智能连接
- 分区修剪
- 机器学习的支持
- Mesos:集群调度及管理系统
- Mesos组件
- 资源分配
- 隔离
- 容错性
- 小结
- 参考文献
- 3 使用 Spark实现机器学习算法
- 机器学习基础知识
- 机器学习:随机森林示例
- 逻辑回归:概述
- 二元形式的逻辑回归
- 逻辑回归估计
- 多元逻辑回归
- Spark中的逻辑回归算法
- 支持向量机
- 复杂决策面
- 支持向量机背后的数学原理
- Spark中的支持向量机
- Spark对 PMML的支持
- PMML结构
- PMML的生产者及消费者
- Spark对朴素贝叶斯的 PMML支持
- Spark对线性回归的PMML支持
- 在Spark中使用MLbase进行机器学习
- 参考文献
- 4 实现实时的机器学习算法
- Storm简介
- 数据流
- 拓扑
- Storm集群
- 简单的实时计算例子
- 数据流组
- Storm的消息处理担保
- 基于Storm的设计模式
- 分布式远程过程调用
- Trident:基于Storm的实时聚合
- 实现基于Storm的逻辑回归算法
- 实现基于Storm的支持向量机算法
- Storm对朴素贝叶斯PMML的支持
- 实时分析的应用
- 工业日志分类
- 互联网流量过滤器
- Storm的替代品
- Spark流
- D-Streams的动机
- 参考文献
- 5 图处理范式
- Pregel:基于BSP的图处理框架
- 类似的做法
- 开源的Pregel实现
- Giraph
- GoldenORB
- Phoebus
- Apache Hama
- Stanford GPS
- GraphLab
- GraphLab:多核版本
- 分布式的GraphLab
- PowerGraph
- 通过 GraphLab实现网页排名算法
- 顶点程序
- 基于GraphLab实现随机梯度下降算法
- 参考文献
- 6 结论:超越Hadoop Map-Reduce的大数据分析
- Hadoop YARN概览
- Hadoop YARN的动机
- 作为资源调度器的 YARN
- YARN上的其他框架
- 大数据分析的未来是怎样的
- 参考文献
- 附录 A代码笔记