当前位置:主页 > 计算机电子书 > 行业软件及应用 > 系统设计下载
数据密集型应用系统设计

数据密集型应用系统设计 PDF 中文超清版

  • 更新:2024-03-20
  • 大小:29.2 MB
  • 类别:系统设计
  • 作者:马丁
  • 出版:中国电力出版社
  • 格式:PDF

  • 资源介绍
  • 相关推荐

《数据密集型应用系统设计》是一本经历剑桥大学分布式系统研究院四年创作的重要著作,这本书从数据分析、数据应用和数据挖掘的角度出发,弥补了分布式理论和工程实践之间的鸿沟,它为软件开发者提供了宝贵的指导和启示,是一本必读的书籍,书中深入探讨了现代数据密集型应用系统的设计原则和决策,帮助读者了解如何有效地处理大规模数据的挑战,无论是对于研究者还是从业人员来说,这本书都是不可或缺的指南,我们由衷地将这本书献给那些追求梦想的人们,希望他们能通过阅读这本书,不断提升技术能力,创造出更加优秀的数据密集型应用系统。

数据密集型应用系统设计

数据密集型应用系统设计 电子书封面

读者评价

通读了一遍,对这个分布式存储领域有一个完整的认识;会再细读一遍,结合文中的引用和MIT6.824来看。 这本书对单机存储、分布式存储系统都做了详细的说明;作者是个搞研究的,会详细的比较多种设计之间的优缺点,方便读者理解,我还挺喜欢这个套路的。 前两部分翻译的还不错, 翻译上第三部分略差,不过整体不影响阅读。

内容介绍

全书分为三大部分:
主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。
我们将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。
主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数据源来解决所有问题,那么一种自然的方式就是集成多个不同的数据库、缓存模块以及索引模块等。首先第10章以批处理开始来处理派生数据,紧接着第11章采用流式处理。第12章总结之前介绍的多种技术,并分析讨论未来构建可靠、可扩展和可维护应用系统可能的新方向或方法。

目录

  • 前言
  • 1第一部分 数据系统基础
  • 第1章 可靠、可扩展与可维护的应用系统
  • 认识数据系统
  • 可靠性
  • 可扩展性
  • 可维护性
  • 小结
  • 第2章 数据模型与查询语言
  • 关系模型与文档模型
  • 数据查询语言
  • 图状数据模型
  • 小结
  • 第3章 数据存储与检索
  • 数据库核心:数据结构
  • 事务处理与分析处理
  • 列式存储
  • 小结
  • 第4章 数据编码与演化
  • 数据编码格式
  • 数据流模式
  • 小结
  • 第二部分 分布式数据系统
  • 第5章 数据复制
  • 主节点与从节点
  • 复制滞后问题
  • 多主节点复制
  • 无主节点复制
  • 小结
  • 第6章 数据分区
  • 189数据分区与数据复制
  • 键-值数据的分区
  • 分区与二级索引
  • 分区再平衡
  • 请求路由
  • 小结
  • 第7章 事务
  • 深入理解事务
  • 弱隔离级别
  • 串行化
  • 小结
  • 第8章 分布式系统的挑战
  • 故障与部分失效
  • 不可靠的网络
  • 不可靠的时钟
  • 知识,真相与谎言
  • 小结
  • 第9章 一致性与共识
  • 一致性保证
  • 可线性化
  • 顺序保证
  • 分布式事务与共识
  • 小结
  • 第三部分 派生数据第
  • 10章 批处理系统
  • 使用UNIX工具进行批处理
  • MapReduce与分布式文件系统
  • 超越MapReduce
  • 小结
  • 第11章 流处理系统
  • 发送事件流
  • 数据库与流
  • 流处理
  • 小结
  • 第12章 数据系统的未来
  • 461数据集成
  • 分拆数据库
  • 端到端的正确性
  • 做正确的事情
  • 小结
  • 术语表

资源下载

资源下载地址1:https://pan.quark.cn/s/237cbc393b38

相关资源

网友留言

网友NO.25459
杜含娇

大概十一放假开始读这本书,中间经历了加班,双十一值班,自己病假,老婆生病请病假,娃生病请病假,断断续续到现在终于算是从头到尾看了一遍,实在是觉得不容易。 这本书的作者是少有的从工业界干到学术界的牛人,知识面广得惊人,也善于举一反三,知识之间互相关联,比如有个地方把读路径比作programming language的lazy evaluation而写路径比作eager evaluation,令人拍案。这一本数囊括了几乎所有数据处理相关工作中可能遇到了的内容,而且也有非常棒的实操经验。比如书的一开始,作者反复强调监控中分位数的作用,可以揭示一些被平均数掩盖的事实,我也正好有一个监控从都是监控平均值变成主要监控若干p99分位数的经历,看到这里,不由得掩卷叹息。 我做数据处理也就是不到三年,接触过不少相关的工具,可以说Hadoop啊,pig啊,Hive啊,Storm啊,你的确不去了解它们背后的原理理念也可以用,但是真正要整合它们,做一个容错,可扩展,可维护的数据产品,则需要相当的分布式和数据系统的insight。帮助你建立这样的insight的书,应该是比较缺乏的,你可以去刷分布式系统的课程,看paper,但是阅读一本one in all的书,ROI可能是最高的。之前也有人尝试过,比如有国人写的《大数据日知录》,其实写得也算不错,但是不知道是笔力不济还是什么缘故,最后也是沦为技术文档的罗列。 这本书循循善诱的写作手法应该是相当高超了,讲解得非常深入浅出,一般照着提出问题 -> 解决方案 -> 这个方案的长处短处 -> 发散到其它方案这个模式讲解,看起来可以说是不知不觉,非常轻松,也没有有些作者的拽文习惯,几乎全部是中学词汇,句子也不复杂,保证非英语母语的人可以流畅阅读,这点可以说是非常良心了。 作者在最后一小节还讨论了大数据的伦理问题,尽管现实世界中,金钱利益面前,可能无人理会这些事情,但是这些夫子自道,还是很体现作者情怀。我觉得这是升华整本书的地方。 本书references超级多,可能正文内容止于guide,老手可能觉得不过蜻蜓点水,那么看看每章后面的几百个ref,那里可以发现更广阔的世界。