大数据是当今信息尖端科技更为趋之若鹜的话题讨论之一。《写给大家看的大数据》简易而系统化详细介绍了大数据管理体系涉及的各层面专业知识,包含大数据的基本要素、大数据的技术性基本、大数据管理方法、大数据剖析、大数据在实际工作上怎样完成和执行等重要内容,涉及大数据系统架构、大数据应用的数据库查询和分布式技术、对大数据开展基本剖析和高級剖析的特性及不同点,及其公司怎样运用大数据变化其商业服务运营模式等内容,可以对想要掌握大数据全景,或者想要应用大数据的公司和本人出示全方位的专业知识内容和学习培训效仿。
《写给大家看的大数据》语言生动,内容覆盖面广,理论结合实例,非常适合对大数据感兴趣的广大读者。对于从事与大数据相关工作的人员,本书也有很高的参考价值。
目录
- 第一部分 大数据入门 1
- 第1章 大数据基础 3
- 数据管理的演化过程 4
- 理解数据管理的几个关键 5
- 关键1:创建可管理的数据结构 5
- 关键2:Web和内容管理 7
- 关键3:管理大数据 7
- 大数据的定义 9
- 构建成功的大数据管理架构 10
- 捕捉、组织、集成分析与模拟 10
- 建立架构基础 11
- 性能问题 13
- 传统与高级分析 15
- 大数据之旅 16
- 第2章 研究大数据类型 17
- 定义结构化的数据 18
- 探索大结构化数据源 18
- 理解关系型数据库在大数据中的角色 19
- 定义非结构化数据 21
- 探索非结构化数据源 21
- 理解CMS在大数据管理中的角色 23
- 理解实时需求和非实时需求 23
- 聚合大数据 25
- 管理不同类型的数据 25
- 将不同类型的数据整合到大数据环境中 25
- 第3章 当老古董遇上新生代:分布式计算 27
- 分布式计算简史 27
- 感谢DARPA 27
- 可持续模型的价值 28
- 了解分布式计算基础 29
- 为什么大数据需要分布式计算 29
- 计算经济的改变 30
- 时延带来的问题 30
- 当需求遇上解决方案 31
- 获取所需的性能 31
- 第二部分 大数据的技术基础 33
- 第4章 深入大数据技术组件 35
- 探索大数据栈 36
- 第0层:带冗余的物理基础架构 37
- 物理冗余网络 38
- 管理硬件:存储与服务器 39
- 基础架构操作 39
- 第1层:安全框架 39
- 进/出应用程序和互联网的界面与接口 40
- 第2层:可操作数据库 42
- 第3层:组织数据服务与工具 43
- 第4层:可分析的数据仓库 44
- 大数据分析 45
- 大数据应用程序 46
- 第5章 虚拟化及其如何支持分布式计算 47
- 理解虚拟化的基本知识 47
- 在大数据中使用虚拟化的重要性 48
- 服务器虚拟化 50
- 应用程序虚拟化 50
- 网络虚拟化 51
- 处理器和内存虚拟化 51
- 数据和存储虚拟化 52
- 使用Hypervisor管理虚拟化 53
- 抽象化与虚拟化 54
- 实现在大数据中的虚拟化 54
- 第6章 云和大数据 56
- 大数据领域中的云 56
- 理解云部署和分发模型 57
- 云部署模型 57
- 云分发模型 59
- 大数据需要云 60
- 在大数据中使用云 61
- 大数据云市场的服务提供商 62
- 亚马逊公共弹性计算云(EC2) 63
- 谷歌的大数据服务 64
- 微软Azure 64
- OpenStack 65
- 在使用云服务时需要注意什么 65
- 第三部分 大数据管理 67
- 第7章 操作型数据库 69
- RDBMS在大数据领域的重要性 71
- 非关系型数据库 72
- Key-Value型数据库 73
- 文档数据库 75
- MongoDB 76
- CouchDB 77
- 纵列数据库 78
- 图形数据库 79
- 空间数据库 81
- 混合持久化 83
- 第8章 MapReduce基础 85
- MapReduce溯源 85
- 理解Map函数 86
- 添加Reduce函数 88
- 结合Map和Reduce 89
- 优化MapReduce 91
- 硬件/网络拓扑 92
- 同步 92
- 文件系统 92
- 第9章 探索Hadoop的世界 94
- 谈谈Hadoop 94
- 理解Hadoop分布式文件系统(HDFS) 95
- Name节点 95
- 数据节点 96
- 理解HDFS 97
- Hadoop的MapReduce 99
- 准备数据 100
- 开始Mapping 101
- Reduce和融合 101
- 第10章 Hadoop基础和生态 103
- 使用Hadoop生态系统构建大数据基础 103
- 使用Hadoop YARN管理资源和应用程序 104
- 使用HBase存储大数据 105
- 使用Hive挖掘大数据 106
- 使用Hadoop生态系统 107
- Pig和Pig Latin 107
- Sqoop 108
- Zookeeper 109
- 第11章 设备和大数据仓库 111
- 使用传统数据仓库装载大数据 111
- 优化数据仓库 112
- 区别大数据结构和数据仓库数据 112
- 一个混合式处理的例子 113
- 大数据分析和数据仓库 114
- 集成的关键 115
- 再思考提取、变换和载入 115
- 改变数据仓库的角色 116
- 改变部署模型 116
- 设备模型 117
- 云模型 117
- 数据仓库的未来 117
- 第四部分 数据分析与大数据 119
- 第12章 定义大数据分析 121
- 使用大数据获得结果 121
- 基本分析 122
- 高级分析 123
- 实用性分析 126
- 货币化分析 126
- 为掌握大数据修改商务智能产品 126
- 数据 126
- 分析算法 127
- 基础架构支持 128
- 大数据分析案例研究 128
- Orbitz 129
- Nokia 129
- NASA 129
- 大数据分析解决方案 130
- 第13章 理解文本分析和大数据 131
- 探索非结构化数据 132
- 理解文本分析 133
- 分析和提取技术 135
- 理解信息抽取 136
- 分类学 137
- 将结果汇总成结构化数据 138
- 开始使用大数据 138
- 客户的声音 138
- 社交媒体分析 139
- 大数据文本分析工具 141
- Attensity 141
- Clarabridge 142
- IBM 142
- OpenText 142
- SAS 143
- 第14章 大数据分析的定制化 144
- 构建新的大数据模型 145
- 理解大数据分析的各种方法 147
- 大数据分析的定制应用程序 147
- 大数据分析的半定制化应用程序 149
- 大数据分析框架的特点 151
- 由大到小:大数据悖论 153
- 第五部分 大数据实现 155
- 第15章 集成数据源 157
- 识别你需要的数据 157
- 勘探阶段 158
- 编制阶段 159
- 集成和整合阶段 160
- 理解大数据集成基础 161
- 定义传统ETL 163
- 理解ELT——提取、载入和转换 164
- 大数据质量优化 165
- 使用Hadoop实现ETL 166
- 大数据集成的最佳实践 166
- 第16章 处理实时数据流和复杂事件 168
- 流数据和复杂事件处理 169
- 使用流数据 169
- 数据流 169
- 流的元数据 171
- 使用复杂事件处理 172
- 从流中分离出CEP 173
- 商务领域的数据流和CEP 174
- 第17章 可操作的大数据 175
- 让大数据成为操作过程的一部分 175
- 集成大数据 175
- 疾病诊断中的大数据协作 177
- 理解大数据工作流 180
- 大数据的有效性、准确性和波动性 181
- 数据有效性 181
- 数据波动性 182
- 第18章 在企业中应用大数据 184
- 大数据经济学 184
- 数据类型和数据来源的识别 185
- 修改业务流或创建新的业务流 187
- 大数据工作流的技术影响 188
- 网罗大数据项目的人才 188
- 计算大数据的投入产出(ROI) 189
- 企业数据管理和大数据 189
- 创建大数据实施里程碑 190
- 理解业务紧迫性 191
- 正确地预测工作量 191
- 选择正确的软件开发方法学 191
- 平衡预算和功能 192
- 评估风险承受能力 192
- 迈出第一步 193
- 第19章 大数据环境的安全和管理 195
- 大数据下的安全 195
- 评估业务风险 196
- 大数据中潜藏的风险 196
- 理解数据保护 197
- 数据管理的挑战 198
- 大数据过程审计 199
- 定位关键利益者 200
- 正确运用组织架构 200
- 为管理风险做准备 200
- 制订正确的管理规则和质量保障 201
- 开发管理完善、安全可靠的大数据环境 201
- 第六部分 现实中的大数据解决方案 203
- 第20章 大数据对业务的重要性 205
- 将大数据作为业务规划的工具 205
- 第一步:规划中引入数据 206
- 第二步:执行分析 206
- 第三步:检查结果 207
- 第四步:落实计划 207
- 规划过程的另一个维度 207
- 第五步:实时监控 208
- 第六步:调节影响 208
- 第七步:适应性实验 208
- 正确地看待数据分析 208
- 在正确的基础上开始行动 209
- 规划大数据 210
- 调整业务流程 210
- 第21章 从现实视角看数据分析 212
- 理解用户对运动型数据的需求 213
- 流数据对环境的影响 214
- 使用传感器来提供实时水文信息 215
- 实时数据的优势 215
- 流数据对公共政策的影响 216
- 流数据在医疗行业的应用 217
- 流数据在能源行业的应用 218
- 使用流数据提升能量产率 218
- 使用流数据提升能源产出 218
- 连接数据流和历史数据与其他实时数据源 219
- 第22章 从现实视角看大数据分析对业务流程的优化 220
- 了解企业对大数据分析的需求 220
- 使用文本分析提升客户体验 221
- 使用大数据分析进行决策 222
- 使用大数据分析避免欺诈 224
- 整合新数据源的商业价值 225
- 第七部分 十项注意 227
- 第23章 十条大数据最佳实践 229
- 理解你的目标 229
- 建立里程碑 230
- 发现你的数据 230
- 清楚你缺少什么数据 230
- 理解可选技术方案 231
- 规划大数据安全 231
- 规划大数据管理策略 231
- 规划数据管家 232
- 持续测试 232
- 学习最佳实践和利用模式 232
- 第24章 十个大数据资源 234
- Hurwitz & Associates 234
- 标准化组织 234
- 开放数据基金会 234
- 云安全联盟 235
- 美国国家标准和科技机构 235
- Apache软件基金会 235
- OASIS 235
- 供应商的网站 236
- 在线协作套件 236
- 大数据会议 237
- 第25章 十条“要”与“不要” 238
- 要将所有业务单元都涵盖在大数据战略中 238
- 要评估所有的大数据分发模型 238
- 要将传统数据源作为大数据战略的一部分 238
- 要计划持久化元数据 239
- 要分发你的数据 239
- 不要依赖于单一的大数据分析方法 239
- 不要在准备充分之前就膨胀 239
- 不要忽略数据集成的需求 239
- 不要忘记安全地管理数据 240
- 不要忽略数据的管理效率 240
- 术语表 241