这书从大数据架构的视角全面解析大数据技术性及算法,讨论大数据的发展趋势和发展趋势。不但对大数据有关技术性及算法干了针对性的剖析和叙述,整理了大数据的技术性归类,如系统架构适用、大数据采集、大数据存储、大数据解决、大数据展现及互动,还结合了大数据制造行业的*技术展和大中型互联网企业的大数据架构实践活动,勤奋为阅读者出示一个大数据的全景图画轴。这书从大数据架构的视角全面解析大数据技术性及算法,讨论大数据的发展趋势和发展趋势。不但对大数据有关技术性及算法干了针对性的剖析和叙述,整理了大数据的技术性归类,如系统架构适用、大数据采集、大数据存储、大数据解决、大数据展现及互动,还结合了大数据制造行业的*技术展和大中型互联网企业的大数据架构实践活动,勤奋为阅读者出示一个大数据的全景图画轴。
这书从大数据架构的视角全面解析大数据技术性及算法,讨论大数据的发展趋势和发展趋势,全方位详细介绍大数据的有关技术性、算法和应用领域,协助阅读者塑造大数据的技术选型和系统架构图工作能力。
目录
- 内容简介
- 前言
- 第1章 大数据技术概述
- 1.1 大数据的概念
- 1.2 大数据的行业价值
- 1.3 大数据问题的爆发
- 1.4 大数据处理流程
- 1.5 大数据技术
- 1.5.1 基础架构支持
- 1.5.2 数据采集
- 1.5.3 数据存储
- 1.5.4 数据计算
- 1.5.5 展现与交互
- 1.6 练习题
- 参考文献
- 第2章 大数据基础支撑——数据中心及云计算
- 2.1 数据中心概述
- 2.1.1 云计算时代数据中心面临的问题
- 2.1.2 新一代数据中心关键技术
- 2.1.3 业界发展动态
- 2.1.4 小结
- 2.2 云计算简介
- 2.2.1 云计算定义
- 2.2.2 云计算主要特征
- 2.2.3 Web服务、网格和云计算
- 2.2.4 云计算应用分类
- 2.2.5 小结
- 2.3 大数据与云计算的关系
- 2.3.1 大数据是信息技术发展的必然阶段
- 2.3.2 云计算等新兴信息技术正在真正地落地和实施
- 2.3.3 云计算等新兴技术是解决大数据问题的核心关键
- 2.4 云资源调度与管理
- 2.4.1 云资源管理
- 2.4.2 云资源调度策略
- 2.4.3 云计算数据中心负载均衡调度
- 2.5 开源云管理平台OpenStack
- 2.5.1 OpenStack的构成
- 2.5.2 OpenStack各组件之间的关系
- 2.5.3 OpenStack的逻辑架构
- 2.5.4 小结
- 2.6 软件定义网络
- 2.6.1 起源与发展
- 2.6.2 OpenFlow标准和规范
- 2.6.3 OpenFlow的应用
- 2.7 虚拟机与容器
- 2.7.1 VM虚拟化与Container虚拟化
- 2.7.2 Docker
- 2.8 练习题
- 参考文献
- 第3章 云计算先行者——Google的三驾马车
- 3.1 Google的三驾马车
- 3.1.1 GFS——一个可扩展的分布式文件系统
- 3.1.2 MapReduce——一种并行计算的编程模型
- 3.1.3 BigTable——一个分布式数据存储系统
- 3.2 Google新“三驾马车”
- 3.2.1 Caffeine——基于Percolator的搜索索引系统
- 3.2.2 Pregel——高效的分布式图计算的计算框架
- 3.2.3 Dremel——大规模数据的交互式数据分析系统
- 3.3 练习题
- 参考文献
- 第4章 云存储系统
- 4.1 云存储的基本概念
- 4.1.1 云存储结构模型
- 4.1.2 云存储与传统存储系统的区别
- 4.2 云存储关键技术
- 4.2.1 存储虚拟化技术
- 4.2.2 分布式存储技术
- 4.3 云存储系统分类
- 4.3.1 分布式文件存储
- 4.3.2 分布式块存储
- 4.3.3 分布式对象存储
- 4.3.4 统一存储
- 4.4 其他相关技术
- 4.5 练习题
- 参考文献
- 第5章 数据采集系统
- 5.1 Flume
- 5.1.1 Flume架构
- 5.1.2 Flume核心组件
- 5.1.3 Flume环境搭建与部署
- 5.2 Scribe
- 5.2.1 Scribe架构
- 5.2.2 Scribe中的Store
- 5.2.3 Scribe环境搭建与部署
- 5.3 Chukwa
- 5.3.1 Chukwa的设计目标
- 5.3.2 Chukwa架构
- 5.3.3 Chukwa环境搭建与部署
- 5.4 Kafka
- 5.4.1 Kafka架构
- 5.4.2 Kafka存储
- 5.4.3 Kafka的特点
- 5.4.4 Kafka环境搭建与部署
- 5.5 练习题
- 参考文献
- 第6章 Hadoop与MapReduce
- 6.1 Hadoop平台
- 6.1.1 Hadoop概述
- 6.1.2 Hadoop的发展简史
- 6.1.3 Hadoop的功能和作用
- 6.1.4 HDFS
- 6.1.5 HBase
- 6.2 MapReduce
- 6.2.1 第一代MapReduce(MRv1)
- 6.2.2 MapReduce 2.0——Yarn
- 6.3 Hadoop相关生态系统
- 6.3.1 交互式数据查询分析
- 6.3.2 数据收集、转换工具
- 6.3.3 机器学习工具
- 6.3.4 集群管理与监控
- 6.3.5 其他工具
- 6.4 Hadoop应用案例
- 6.5 练习题
- 参考文献
- 第7章 Spark——大数据统一计算平台
- 7.1 Spark简介
- 7.1.1 Spark
- 7.1.2 BDAS
- 7.2 RDD
- 7.2.1 RDD基本概念
- 7.2.2 RDD示例
- 7.2.3 RDD与分布式共享内存
- 7.3 Spark SQL
- 7.4 MLlib
- 7.5 GraphX
- 7.6 Spark Streaming
- 7.6.1 基本概念
- 7.6.2 编程模型
- 7.7 Spark的安装
- 7.7.1 单机运行Spark
- 7.7.2 使用Spark Shell与Spark交互
- 7.8 Shark、Impala、Hive对比
- 7.9 练习题
- 参考文献
- 第8章 Storm流计算系统
- 8.1 流计算系统
- 8.1.1 流计算系统的特点
- 8.1.2 流计算处理基本流程
- 8.2 Storm流计算框架
- 8.2.1 Storm简介
- 8.2.2 Storm关键术语
- 8.2.3 Storm架构设计
- 8.3 Storm编程实例
- 8.4 Storm应用
- 8.4.1 Storm应用场景
- 8.4.2 Storm应用实例
- 8.5 其他流计算框架
- 8.6 练习题
- 参考文献
- 第9章 SQL、NoSQL与NewSQL
- 9.1 传统SQL数据库
- 9.1.1 关系模型
- 9.1.2 关系型数据库的优点
- 9.1.3 关系型数据库面临的问题
- 9.2 NoSQL
- 9.2.1 NoSQL与大数据
- 9.2.2 NoSQL理论基础
- 9.2.3 分布式模型
- 9.2.4 NoSQL数据库分类
- 9.3 NewSQL
- 9.3.1 系统分类
- 9.3.2 Google Spanner
- 9.3.3 MemSQL
- 9.3.4 VoltDB
- 9.4 练习题
- 参考文献
- 第10章 大数据与数据挖掘
- 10.1 数据挖掘的主要功能和常用算法
- 10.1.1 数据挖掘的主要功能
- 10.1.2 常用算法
- 10.2 大数据时代的数据挖掘
- 10.2.1 传统数据挖掘解决方案
- 10.2.2 分布式数据挖掘解决方案
- 10.3 数据挖掘相关工具
- 10.3.1 Mahout
- 10.3.2 语言工具——Python
- 10.4 数据挖掘与R语言
- 10.4.1 R语言简介
- 10.4.2 R语言在数据挖掘上的应用
- 10.5 练习题
- 参考文献
- 第11章 深度学习
- 11.1 深度学习介绍
- 11.1.1 深度学习的概念
- 11.1.2 深度学习的结构
- 11.1.3 从机器学习到深度学习
- 11.2 深度学习基本方法
- 11.2.1 自动编码器
- 11.2.2 稀疏编码
- 11.3 深度学习模型
- 11.3.1 深度置信网络
- 11.3.2 卷积神经网络
- 11.4 深度学习的训练加速
- 11.4.1 GPU加速
- 11.4.2 数据并行
- 11.4.3 模型并行
- 11.4.4 计算集群
- 11.5 深度学习应用
- 11.5.1 Google
- 11.5.2 百度
- 11.5.3 腾讯Mariana
- 11.6 练习题
- 参考文献
- 第12章 电子商务与社会化网络大数据分析
- 12.1 推荐系统简介
- 12.1.1 推荐系统的评判标准
- 12.1.2 推荐系统的分类
- 12.1.3 在线推荐系统常用算法介绍
- 12.1.4 相关算法知识
- 12.2 计算广告
- 12.2.1 计算广告简介
- 12.2.2 计算广告发展阶段
- 12.2.3 计算广告相关算法
- 12.2.4 计算广告与大数据
- 12.2.5 大数据在计算广告中的应用案例
- 12.3 社交网络
- 12.3.1 社交网络中大数据挖掘的应用场景
- 12.3.2 社交网络大数据挖掘核心算法模型
- 12.3.3 图计算框架
- 12.3.4 大数据在社交网络中的应用案例
- 12.4 练习题
- 第13章 大数据展示与交互技术
- 13.1 数据可视化分类
- 13.1.1 按照展示内容进行划分
- 13.1.2 按照数据类型进行划分
- 13.2 可视化技术分类
- 13.2.1 2D展示技术
- 13.2.2 3D渲染技术
- 13.2.3 体感互动技术
- 13.2.4 虚拟现实技术
- 13.2.5 增强现实技术
- 13.2.6 可穿戴技术
- 13.2.7 可植入设备
- 13.3 练习题
- 参考文献
- 第14章 大数据安全与隐私
- 14.1 云计算时代安全与隐私问题凸显
- 14.2 云计算与大数据时代的安全挑战
- 14.2.1 大数据时代的安全需求
- 14.2.2 信息安全的发展历程
- 14.2.3 新兴信息技术带来的安全挑战
- 14.3 如何解决安全问题
- 14.3.1 云计算安全防护框架
- 14.3.2 基础云安全防护关键技术
- 14.3.3 创立本质安全的新型IT体系
- 14.4 隐私问题
- 14.4.1 防不胜防的隐私泄露
- 14.4.2 隐私保护的政策法规
- 14.4.3 隐私保护技术
- 14.5 练习题
- 参考文献
- 第15章 大数据技术发展趋势
- 15.1 实时化
- 15.2 内存计算
- 15.2.1 机遇与挑战
- 15.2.2 研究进展
- 15.2.3 发展展望
- 15.3 泛在化
- 15.3.1 发展现状
- 15.3.2 发展趋势
- 15.4 智能化
- 15.4.1 传统人工智能
- 15.4.2 基于大数据的人工智能
- 15.5 练习题
- 参考文献
- 第16章 知名企业大数据架构简介
- 16.1 腾讯
- 16.1.1 背景介绍
- 16.1.2 整体架构
- 16.2 淘宝
- 16.2.1 背景介绍
- 16.2.2 整体架构
- 16.3 Facebook
- 16.3.1 背景介绍
- 16.3.2 整体架构
- 16.3.3 技术架构展望
- 16.4 Twitter
- 16.4.1 背景介绍
- 16.4.2 整体架构
- 16.4.3 技术架构展望
- 16.5 Netflix
- 16.5.1 背景介绍
- 16.5.2 整体架构
- 16.5.3 Netflix个性化和推荐系统架构
- 16.6 练习题
- 参考文献