《轻松学大数据挖掘:算法、场景与数据产品》是由电子工业出版社出版的一本关于大数据方面的书籍,作者是汪榕,主要介绍了关于大数据挖掘、算法、场景、数据产品方面的知识内容,目前在大数据类书籍综合评分为:9.4分。
书籍介绍
伴随着大数据时代的发展,数据价值的挖掘以及产品化逐渐被重视起来。《轻松学大数据挖掘:算法、场景与数据产品》作为该领域的入门教程,打破以往的数据工具与技术的介绍模式,凭借作者在大数据价值探索过程中的所感所悟,以故事的形式和读者分享一个又一个的数据经历,引人深思、耐人寻味。《轻松学大数据挖掘:算法、场景与数据产品》共9章,第1~2章介绍数据情怀与数据入门;第3~6章讨论大数据挖掘相关的一系列学习体系;第7~9章为实践应用与数据产品的介绍。让所有学习大数据挖掘的朋友清楚如何落地,以及在整个数据生态圈所需要扮演的角色,全面了解数据的上下游。
《轻松学大数据挖掘:算法、场景与数据产品》可作为相关工作经验在3年以内的数据挖掘工程师、转型入门做大数据挖掘的人士或者对数据感兴趣的追逐者的轻松学习教程,引导大家有一个正确的学习方向,也可供对数据产品感兴趣的产品经理和数据挖掘工程师阅读参考。
目录
- 第1章 数据情怀篇 1
- 1.1 数据之禅 1
- 1.2 数据情怀 1
- 1.2.1 数据情怀这股劲 2
- 1.2.2 对数据情怀的理解 2
- 1.3 大数据时代的我们 4
- 1.4 成为DT时代的先驱者 6
- 1.4.1 数据没有寒冬 6
- 1.4.2 数据生态问题 7
- 1.4.3 健康的数据生态 8
- 1.4.4 结尾 8
- 第2章 数据入门 9
- 2.1 快速掌握SQL的基础语法 9
- 2.1.1 初识SQL 9
- 2.1.2 学会部署环境 10
- 2.1.3 常用的SQL语法(上篇) 13
- 2.1.4 常用的SQL语法(下篇) 17
- 2.2 在Windows 7操作系统上搭建IPython Notebook 25
- 2.2.1 学习Python的初衷 25
- 2.2.2 搭建IPython Notebook 26
- 2.2.3 IPython.exe Notebook的使用说明 27
- 2.2.4 配置IPython Notebook远程调用 27
- 2.3 快速掌握Python的基本语法 30
- 2.4 用Python搭建数据分析体系 38
- 2.4.1 构建的初衷 38
- 2.4.2 构建思路 39
- 2.4.3 开发流程 39
- 2.5 Python学习总结 44
- 2.5.1 关于Python 45
- 2.5.2 Python其他知识点 45
- 第3章 大数据工具篇 48
- 3.1 Hadoop伪分布式的安装配置 48
- 3.1.1 部署CentOS环境 48
- 3.1.2 部署Java环境 50
- 3.1.3 部署Hadoop伪分布式环境 51
- 3.2 数据挖掘中的MapReduce编程 54
- 3.2.1 学习MapReduce编程的目的 54
- 3.2.2 MapReduce的代码规范 55
- 3.2.3 简单的案例 58
- 3.3 利用MapReduce中的矩阵相乘 60
- 3.3.1 矩阵的概念 60
- 3.3.2 不同场景下的矩阵相乘 61
- 3.4 数据挖掘中的Hive技巧 67
- 3.4.1 面试心得 67
- 3.4.2 用Python执行HQL命令 67
- 3.4.3 必知的HQL知识 69
- 3.5 数据挖掘中的HBase技巧 75
- 3.5.1 知晓相关依赖包 75
- 3.5.2 从HBase中获取数据 76
- 3.5.3 往HBase中存储数据 77
- 第4章 大数据挖掘基础篇 81
- 4.1 MapReduce和Spark做大数据挖掘的差异 81
- 4.1.1 初识Hadoop生态系统 81
- 4.1.2 知晓Spark的特点 83
- 4.1.3 编程的差异性 85
- 4.1.4 它们之间的灵活转换 88
- 4.1.5 选择合适的工具 89
- 4.2 搭建大数据挖掘开发环境 90
- 4.3 动手实现算法工程 99
- 4.3.1 知晓Spark On Yarn的运作模式 101
- 4.3.2 创作第一个数据挖掘算法 102
- 4.3.3 如何理解“朴素”二字 103
- 4.3.4 如何动手实现朴素贝叶斯算法 103
- 第5章 大数据挖掘认知篇 107
- 5.1 理论与实践的差异 107
- 5.2 数据挖掘中的数据清洗 110
- 5.2.1 数据清洗的那些事 110
- 5.2.2 大数据的必杀技 111
- 5.2.3 实践中的数据清洗 112
- 5.3 数据挖掘中的工具包 120
- 5.3.1 业务模型是何物 120
- 5.3.2 想做一个好的模型 121
- 第6章 大数据挖掘算法篇 123
- 6.1 时间衰变算法 123
- 6.1.1 何为时间衰变 123
- 6.1.2 如何理解兴趣和偏好 124
- 6.1.3 时间衰变算法的抽象 124
- 6.1.4 采用Spark实现模型 126
- 6.2 熵值法 130
- 6.2.1 何为信息熵 130
- 6.2.2 熵值法的实现过程 130
- 6.2.3 业务场景的介绍 132
- 6.2.4 算法逻辑的抽象 133
- 6.3 预测响应算法 136
- 6.3.1 业务场景的介绍 136
- 6.3.2 构建模型的前期工作 137
- 6.3.3 常用的预测模型 138
- 6.4 层次分析算法 140
- 6.5 工程能力的培养与实践 142
- 6.5.1 工程能力的重要性 142
- 6.5.2 利用Python实现层次分析法 144
- 第7章 用户画像实践 148
- 7.1 用户画像的应用场景 148
- 7.1.1 背景描述 148
- 7.1.2 需求调研 149
- 7.2 用户画像的标签体系 150
- 7.2.1 需求分析 151
- 7.2.2 标签的构建 151
- 7.3 用户画像的模块化思维 152
- 7.3.1 何为模块化思维 152
- 7.3.2 用户画像与模块化思维 153
- 7.4 用户画像的工程开发 154
- 7.4.1 对于开发框架的选择 154
- 7.4.2 模块化功能的设计 156
- 7.5 用户画像的智能营销 158
- 7.5.1 业务营销 158
- 7.5.2 营销构思 159
- 7.5.3 技术难点 160
- 第8章 反欺诈实践篇 162
- 8.1 “羊毛党”监控的业务 162
- 8.1.1 “羊毛党”的定义与特点 162
- 8.1.2 “羊毛”存在的必然性 163
- 8.1.3 “羊毛党”的进化 164
- 8.1.4 “羊毛党”存在的利与弊 165
- 8.1.5 “羊毛党”监控平台的意义 165
- 8.2 “羊毛党”监控的设备指纹 166
- 8.2.1 何为设备指纹 166
- 8.2.2 底层参数 167
- 8.2.3 应用场景 168
- 8.2.4 移动端的数据持久化 169
- 8.2.5 设备指纹生成算法 169
- 8.3 “羊毛党”监控的数据驱动 170
- 8.3.1 监控的目的 170
- 8.3.2 数据如何“食用” 172
- 8.4 “羊毛党”监控的实践分享 173
- 第9章 大数据挖掘践行篇 178
- 9.1 如何从0到1转型到大数据圈子 178
- 9.2 数据挖掘从业者综合能力评估 180
- 9.2.1 度量的初衷 180
- 9.2.2 综合能力评估 181
- 9.2.3 个人指标体系(大数据挖掘) 182
- 9.3 给想要进入数据挖掘圈子的新人一点建议 183
- 9.3.1 诚信与包装 184
- 9.3.2 筹备能力 185
- 9.3.3 投好简历 186
- 9.3.4 把握面试 186
- 9.3.5 结尾 187
- 后记 数据价值探索与数据产品实践 188