基于《重构大数据统计》内容开发的数据分析工具已经在阿里巴巴集团内部的多个部门使用,取得显著效果。大数据的统计计算是进行数据探索和分析挖掘的基础,在实际应用中会遇到两个问题:一个是需要使用多少资源;另一个是计算时间,它关系到数据探索分析的效率和效果。人们都希望花更少的钱,并且计算时间更短,但对于某个确定的计算过程,它们是成反比的。《重构大数据统计》就是从统计计算的算法入手,重构其计算过程,从而同时降低资源使用量和计算时间。《重构大数据统计》提出了一套完整的关于大数据统计的计算理论,包括常用的各种统计量和统计方法。《重构大数据统计》还提供大量的示例程序代码帮助读者进一步了解算法细节,便于将书中的方法运用于实际计算。
目录
- 第1章基本概念 1
- 1.1 数据类型 1
- 1.2 总体和样本 2
- 1.3 参数和统计量 2
- 1.4 分布式计算 3
- 第2章单变量基本统计量 5
- 2.1 数量统计量 5
- 2.1.1 样本方差为何除以n-1 7
- 2.1.2 数据分布与标准差的关系 10
- 2.1.3 新的计算公式 11
- 2.1.4 代码实现 16
- 2.2 频数统计量 18
- 2.3 次序统计量 23
- 2.3.1 通过排序方法计算次序统计量 25
- 2.3.2 不需排序就可计算的次序统计量 29
- 2.3.3 基于频数信息计算次序统计量 31
- 2.3.4 中位数、众数和均值的关系 34
- 第3章单变量数据的分布 36
- 3.1 直方图 36
- 3.1.1 直方图的计算 39
- 3.1.2 算法实现 42
- 3.1.3 已知数据频数的情况下求直方图 49
- 3.1.4 日期类型直方图 49
- 3.2 经验分布 57
- 3.3 近似分位数和近似百分位数 61
- 3.4 PP、QQ概率图 65
- 3.5 单变量的基本统计信息 69
- 第4章多变量的数据特征 77
- 4.1 协方差 77
- 4.2 相关系数 79
- 4.3 协方差和相关系数的计算实现 80
- 4.4 数据表的基本统计结果 84
- 第5章数据探索 88
- 5.1 扩展直方图 88
- 5.1.1 计算方法 90
- 5.1.2 代码实现 91
- 5.2 交叉表 110
- 第6章极限定理 116
- 6.1 大数定理 116
- 6.2 中心极限定理 117
- 第7章常用的分布函数介绍 123
- 7.1 基本定义 123
- 7.2 标准正态分布(Z分布或U分布) 124
- 7.3 卡方分布(χ^2分布) 129
- 7.4 学生T分布 133
- 7.5 F分布 139
- 第8章常用分布函数计算 145
- 8.1 函数定义 145
- 8.2 函数性质及相互间的关系 147
- 8.3 分布函数关系图 164
- 8.4 分布函数的计算 166
- 8.4.1 计算Γ(x) 166
- 8.4.2 计算CDF_Γ 170
- 8.4.3 计算CDF_Β 173
- 8.4.4 计算IDF_Γ和CDF_Β 176
- 8.4.5 其他函数的计算 178
- 8.5 生成常用分布的随机数 180
- 第9章参数估计 187
- 9.1 点估计与区间估计 187
- 9.2 单个总体的参数估计 190
- 9.2.1 不同情况的参数估计表达式 190
- 9.2.2 单个总体参数估计的实现 191
- 9.3 两个总体的参数估计 196
- 9.3.1 不同情况的参数估计表达式 196
- 9.3.2 两个总体参数估计的实现 199
- 第10章假设检验 207
- 10.1 基本概念 207
- 10.2 参数检验 209
- 10.3 单个总体参数的检验 212
- 10.3.1 各种情况下的检验方法 212
- 10.3.2 单个总体参数检验方法的实现 214
- 10.3.3 不同检验方法的选择 223
- 10.4 两个总体参数的检验 227
- 10.4.1 各种情况下的检验方法 227
- 10.4.2 两个总体参数检验方法的实现 231
- 10.4.3 不同检验方法的选择 237
- 第11章非参数检验 244
- 11.1 Pearson拟合优度χ^2检验 245
- 11.2 两个变量的列联表检验 248
- 11.3 K-S检验 250
- 11.3.1 单样本K-S检验 251
- 11.3.2 双样本K-S检验 256
- 11.4 符号检验 258
- 11.5 秩统计量和秩检验方法 260
- 11.5.1 Wilcoxon秩和检验 260
- 11.5.2 Wilcoxon符号秩和检验 266
- 11.5.3 Kruskal-Wallis检验 268
- 11.5.4 Friedman检验 273
- 第12章方差分析 277
- 12.1 单因素方差分析 278
- 12.1.1 计算流程 278
- 12.1.2 代码实现 280
- 12.1.3 方差分析与T检验的关系 283
- 12.1.4 方差分析中的多重比较方法 285
- 12.2 双因素方差分析 289
- 12.2.1 无交互作用的双因素方差分析 289
- 12.2.2 有交互作用的双因素方差分析 295
- 第13章多元线性回归 302
- 13.1 数学模型 302
- 13.2 显著性检验 308
- 13.3 计算步骤 309
- 13.4 代码实现 313
- 13.5 多重共线性 320
- 13.5.1 度量指标 320
- 13.5.2 代码实现 323
- 13.5.3 应用示例 328
- 13.6 逐步回归 330
- 第14章主成分分析 340
- 14.1 计算步骤 342
- 14.2 代码实现 345
- 14.3 应用举例 350
- 第15章判别分析 359
- 15.1 距离判别 359
- 15.1.1 Mahalanobis距离 360
- 15.1.2 模型训练和预测 361
- 15.2 Fisher判别 364
- 15.3 Bayes判别 369
- 15.3.1 朴素Bayes判别 369
- 15.3.2 模型训练和预测 370
- 15.4 判别算法的综合模型 377
- 15.5 应用举例 378
- 第16章模型评估曲线 383
- 16.1 相关概念 383
- 16.2 定义 384
- 16.2.1 ROC曲线 384
- 16.2.2 上升图和反馈率―精确率线 386
- 16.3 计算实现 386
- 参考文献 391