数据算法:Hadoop/Spark大数据处理技巧介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这本书还概要介绍了MapReduce、Hadoop和Spark。
本书主要内容包括:
■ 完成超大量交易的购物篮分析。
■ 数据挖掘算法(K-均值、KNN和朴素贝叶斯)。
■ 使用超大基因组数据完成DNA和RNA测序。
■ 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。
■ 推荐算法和成对文档相似性。
■ 线性回归、Cox回归和皮尔逊(Pearson)相关分析。
目录
- 第1章二次排序:简介 19
- 第2章二次排序:详细示例 42
- 第3章 Top 10 列表 54
- 第4章左外连接 96
- 第5章反转排序 127
- 第6章移动平均 137
- 第7章购物篮分析 155
- 第8章共同好友 182
- 第9章使用MapReduce实现推荐引擎 201
- 第10章基于内容的电影推荐 225
- 第11章使用马尔可夫模型的智能邮件营销 .253
- 第12章 K-均值聚类 282
- 第13章 k-近邻 296
- 第14章朴素贝叶斯 315
- 第15章情感分析 349
- 第16章查找、统计和列出大图中的所有三角形 354
- 第17章 K-mer计数 375
- 第18章 DNA测序 390
- 第19章 Cox回归 413
- 第20章 Cochran-Armitage趋势检验 426
- 第21章等位基因频率 443
- 第22章 T检验 468
- 第23章皮尔逊相关系数 488
- 第24章 DNA碱基计数 520
- 第25章 RNA测序 543
- 第26章基因聚合 553
- 第27章线性回归 586
- 第28章 MapReduce和幺半群 600
- 第29章小文件问题 622
- 第30章 MapReduce的大容量缓存 635
- 第31章 Bloom过滤器 651Bloom