资深大数据专家多年实战经验总结,拒绝晦涩,开启大数据与机器学习妙趣之旅。以降低学习曲线和阅读难度为宗旨,系统讲解统计学、数据挖掘算法、实际应用案例、数据价值与变现,以及高级拓展技能,并清晰勾勒出大数据技术路线与产业蓝图。
本书共分18章。用通俗易懂的语言,结合大量案例与漫画,不枯燥,实用、接地气。
第1~5章,这部分是大数据入门所需的系统性知识,剖析大数据产业、数据与信息算法等的关系,妙解数学基础(排列组合、概率、统计与分布),以及指标化运营及体系构建。这部分补足读者的产业与相关概念认知,以及所需的数学知识。为下面的数据挖掘算法的理解与应用夯实基础。
第6~8章,这部分介绍数据挖掘基础知识与算法,讲解了与数据息息相关的信息论,重点讲解了:多维向量空间(向量和维度、矩阵及其计算、上卷和下钻);
回归(线性回归、残差分析、拟合相关问题);
聚类(K-Means算法、有趣模式、孤立点、层次与密度聚类,聚类的评估等);
分类(朴素贝叶斯、决策树归纳、*森林、隐马尔科夫模型、SVM、遗传算法)。
第11~18章,这部分介绍生产应用与高级扩展。其中第11~15章介绍生产应用实践,涵盖关联分析、用户画像、推荐算法、文本挖掘、人工神经网络。这些也是工业界和学术界研究的热点。第16章讲解了著名的大数据框架及其安装与配置,如Hadoop、Spark、Cassandra、PrestoDB。第17章从速度与稳定性维度介绍了大数据系统的架构与调优。第18章则从数据运营、评估、展现与变现场景层面进行了解读。
附录部分给出了大数据平台运行可能需要的软件和库,以及群众如何看待炙手可热的大数据。
目录
- 第1章大数据产业1
- 1.1大数据产业现状1
- 1.2对大数据产业的理解2
- 1.3大数据人才3
- 1.3.1供需失衡3
- 1.3.2人才方向3
- 1.3.3环节和工具5
- 1.3.4门槛障碍6
- 1.4小结8
- 第2章步入数据之门9
- 2.1什么是数据9
- 2.2什么是信息10
- 2.3什么是算法12
- 2.4统计、概率和数据挖掘13
- 2.5什么是商业智能13
- 2.6小结14
- 第3章排列组合与古典概型15
- 3.1排列组合的概念16
- 3.1.1公平的决断——扔硬币16
- 3.1.2非古典概型17
- 3.2排列组合的应用示例18
- 3.2.1双色球彩票18
- 3.2.2购车摇号20
- 3.2.3德州扑克21
- 3.3小结25
- 第4章统计与分布27
- 4.1加和值、平均值和标准差27
- 4.1.1加和值28
- 4.1.2平均值29
- 4.1.3标准差30
- 4.2加权均值32
- 4.2.1混合物定价32
- 4.2.2决策权衡34
- 4.3众数、中位数35
- 4.3.1众数36
- 4.3.2中位数37
- 4.4欧氏距离37
- 4.5曼哈顿距离39
- 4.6同比和环比41
- 4.7抽样43
- 4.8高斯分布45
- 4.9泊松分布49
- 4.10伯努利分布52
- 4.11小结54
- 第5章指标55
- 5.1什么是指标55
- 5.2指标化运营58
- 5.2.1指标的选择58
- 5.2.2指标体系的构建62
- 5.3小结63
- 第6章信息论64
- 6.1信息的定义64
- 6.2信息量65
- 6.2.1信息量的计算65
- 6.2.2信息量的理解66
- 6.3香农公式68
- 6.4熵70
- 6.4.1热力熵70
- 6.4.2信息熵72
- 6.5小结75
- 第7章多维向量空间76
- 7.1向量和维度76
- 7.1.1信息冗余77
- 7.1.2维度79
- 7.2矩阵和矩阵计算80
- 7.3数据立方体83
- 7.4上卷和下钻85
- 7.5小结86
- 第8章回归87
- 8.1线性回归87
- 8.2拟合88
- 8.3残差分析94
- 8.4过拟合99
- 8.5欠拟合100
- 8.6曲线拟合转化为线性拟合101
- 8.7小结104
- 第9章聚类105
- 9.1K-Means算法106
- 9.2有趣模式109
- 9.3孤立点110
- 9.4层次聚类110
- 9.5密度聚类113
- 9.6聚类评估116
- 9.6.1聚类趋势117
- 9.6.2簇数确定119
- 9.6.3测定聚类质量121
- 9.7小结124
- 第10章分类125
- 10.1朴素贝叶斯126
- 10.1.1天气的预测128
- 10.1.2疾病的预测130
- 10.1.3小结132
- 10.2决策树归纳133
- 10.2.1样本收集135
- 10.2.2信息增益136
- 10.2.3连续型变量137
- 10.3随机森林140
- 10.4隐马尔可夫模型141
- 10.4.1维特比算法144
- 10.4.2前向算法151
- 10.5支持向量机SVM154
- 10.5.1年龄和好坏154
- 10.5.2“下刀”不容易157
- 10.5.3距离有多远158
- 10.5.4N维度空间中的距离159
- 10.5.5超平面怎么画160
- 10.5.6分不开怎么办160
- 10.5.7示例163
- 10.5.8小结164
- 10.6遗传算法164
- 10.6.1进化过程164
- 10.6.2算法过程165
- 10.6.3背包问题165
- 10.6.4极大值问题173
- 10.7小结181
- 第11章关联分析183
- 11.1频繁模式和Apriori算法184
- 11.1.1频繁模式184
- 11.1.2支持度和置信度185
- 11.1.3经典的Apriori算法187
- 11.1.4求出所有频繁模式190
- 11.2关联分析与相关性分析192
- 11.3稀有模式和负模式193
- 11.4小结194
- 第12章用户画像195
- 12.1标签195
- 12.2画像的方法196
- 12.2.1结构化标签196
- 12.2.2非结构化标签198
- 12.3利用用户画像203
- 12.3.1割裂型用户画像203
- 12.3.2紧密型用户画像204
- 12.3.3到底“像不像”204
- 12.4小结205
- 第13章推荐算法206
- 13.1推荐思路206
- 13.1.1贝叶斯分类206
- 13.1.2利用搜索记录207
- 13.2User-basedCF209
- 13.3Item-basedCF211
- 13.4优化问题215
- 13.5小结217
- 第14章文本挖掘218
- 14.1文本挖掘的领域218
- 14.2文本分类219
- 14.2.1Rocchio算法220
- 14.2.2朴素贝叶斯算法223
- 14.2.3K-近邻算法225
- 14.2.4支持向量机SVM算法226
- 14.3小结227
- 第15章人工神经网络228
- 15.1人的神经网络228
- 15.1.1神经网络结构229
- 15.1.2结构模拟230
- 15.1.3训练与工作231
- 15.2FANN库简介233
- 15.3常见的神经网络235
- 15.4BP神经网络235
- 15.4.1结构和原理236
- 15.4.2训练过程237
- 15.4.3过程解释240
- 15.4.4示例240
- 15.5玻尔兹曼机244
- 15.5.1退火模型244
- 15.5.2玻尔兹曼机245
- 15.6卷积神经网络247
- 15.6.1卷积248
- 15.6.2图像识别249
- 15.7深度学习255
- 15.8小结256
- 第16章大数据框架简介257
- 16.1著名的大数据框架257
- 16.2Hadoop框架258
- 16.2.1MapReduce原理259
- 16.2.2安装Hadoop261
- 16.2.3经典的WordCount264
- 16.3Spark框架269
- 16.3.1安装Spark270
- 16.3.2使用Scala计算WordCount271
- 16.4分布式列存储框架272
- 16.5PrestoDB——神奇的CLI273
- 16.5.1Presto为什么那么快273
- 16.5.2安装Presto274
- 16.6小结277
- 第17章系统架构和调优278
- 17.1速度——资源的配置278
- 17.1.1思路一:逻辑层面的优化279
- 17.1.2思路二:容器层面的优化279
- 17.1.3思路三:存储结构层面的优化280
- 17.1.4思路四:环节层面的优化280
- 17.1.5资源不足281
- 17.2稳定——资源的可用282
- 17.2.1借助云服务282
- 17.2.2锁分散282
- 17.2.3排队283
- 17.2.4谨防“雪崩”283
- 17.3小结285
- 第18章数据解读与数据的价值286
- 18.1运营指标286
- 18.1.1互联网类型公司常用指标287
- 18.1.2注意事项288
- 18.2AB测试289
- 18.2.1网页测试290
- 18.2.2方案测试290
- 18.2.3灰度发布292
- 18.2.4注意事项293
- 18.3数据可视化295
- 18.3.1图表295
- 18.3.2表格299
- 18.4多维度——大数据的灵魂299
- 18.4.1多大算大299
- 18.4.2大数据网络300
- 18.4.3去中心化才能活跃301
- 18.4.4数据会过剩吗302
- 18.5数据变现的场景303
- 18.5.1数据价值的衡量的讨论303
- 18.5.2场景1:征信数据307
- 18.5.3场景2:宏观数据308
- 18.5.4场景3:画像数据309
- 18.6小结310
- 附录AVMwareWorkstation的安装311
- 附录BCentOS虚拟机的安装方法314
- 附录CPython语言简介318
- 附录DScikit-learn库简介323
- 附录EFANNforPython安装324
- 附录F群众眼中的大数据325
- 写作花絮327
- 参考文献329