编辑推荐
适读人群 :本书适用于想参加大数据分析师认证考试的人员,以及所有对大数据分析感兴趣的技术人员和决策者阅读。
大数据是当今科技行业中非常受欢迎的流行语之一。全世界的企业都已经意识到了可用的大量数据的价值,并尽努力来管理和分析数据、发挥其作用,以建立战略和发展竞争优势。与此同时,这项技术的出现,导致了各种新的和增强的工作角色的演变。
《大数据分析师**教程》系列的目标是培养新一代的国际化全能大数据分析师,使他们精通数据挖掘、数据操纵和数据分析方面的基本及高级分析技术,熟悉大数据平台以及业务和行业需求,能够高效地参与大数据分析项目。
本系列旨在使参与者熟悉整个数据分析生命期,通过众多案例分析,使参与者熟悉大数据在不同相关行业中的角色和用途,提供基本及高级大数据分析以及可视化技术的完整技术诀窍,帮助他们分析数据、创建统计模型和提供业务洞察力。
本系列共两卷,第1卷“大数据分析与预测建模”包含4个模块,涉及大数据入门,分析和R编程入门,使用R语言进行数据分析,用R语言进行高级分析;第2卷“机器学习、大数据分析和可视化”包含3个模块,涉及机器学习的概念,社交媒体、移动分析和可视化,大数据分析的行业应用。
内容简介
“大数据”已连年入选IT领域的热点话题,人们每天都会通过互联网、移动设备等生产大量数据。如何从海量数据中洞悉出隐藏其后的见解是当今社会各领域人士极为关注的话题。本系列图书以“大数据分析师”应掌握的IT技术为主线,共分两卷,以7个模块(第1卷含4个模块,第2卷含3个模块)分别介绍大数据入门,分析和R编程入门,使用R进行数据分析,用R进行高级分析,机器学习的概念,社交媒体、移动分析和可视化,大数据分析的行业应用等核心内容,全面且详尽地涵盖了大数据分析的各个领域。
本书为第2卷,首先介绍机器学习的类型和方法,R上的图模型和贝叶斯网络、人工神经网络、使用PCA和因子分析降维法以及支持向量机,并讲解如何用R语言实现各种网络,然后介绍大数据解决方案工程、社交媒体分析和文本分析、移动分析和大数据可视化,最后通过几个实际案例讲解大数据分析在各行业中的应用。
本书适用于想成为大数据分析师的人员以及所有对大数据分析感兴趣的技术人员和决策者阅读。
作者简介
国际知名IT培训机构中的多名大牛讲师,通过对技术、IT市场需求以及当今就业培训方面的全球行业标准进行了广泛并严格的调研之后,开发而成。作者们的这些计划的构思目标是,成为理想的就业能力培训项目,为那些有志于在国际IT行业取得事业成功的人提供服务。
目录
- 模块1 机器学习的概念
- 第1讲 理解机器学习技术 3
- 1.1 什么是机器学习 4
- 1.1.1 数据挖掘与机器学习之间的差异 5
- 1.1.2 SpamAssassin特性 6
- 1.2 机器学习的应用 8
- 1.2.1 图像识别 8
- 1.2.2 语音识别 10
- 1.2.3 医疗诊断 10
- 1.2.4 统计套利 11
- 1.2.5 关联学习 11
- 1.2.6 分类 11
- 1.2.7 预测 12
- 1.2.8 提取 13
- 1.2.9 回归 13
- 1.2.10 概率 13
- 1.3 机器学习的类型 14
- 1.3.1 有监督学习 14
- 1.3.2 无监督学习 15
- 1.3.3 强化学习 15
- 1.4 机器学习方法 16
- 1.4.1 决策树学习 16
- 1.4.2 关联规则学习 16
- 1.4.3 人工神经网络 17
- 1.4.4 归纳逻辑编程 17
- 1.4.5 支持向量机 17
- 1.4.6 聚类 18
- 1.4.7 贝叶斯网络 18
- 1.4.8 强化学习 18
- 1.4.9 表示学习 18
- 1.4.10 相似性和度量学习 18
- 1.4.11 稀疏字典学习 19
- 1.5 机器学习算法列表 19
- 练习 22
- 备忘单 24
- 第2讲 R上的图模型和贝叶斯网络 25
- 2.1 图模型简介 26
- 2.1.1 图模型的类型 30
- 2.1.2 图中的条件独立性 32
- 2.1.3 图中的条件独立性与分割 33
- 2.1.4 图的分解或者因子化 35
- 2.1.5 图模型的应用 36
- 2.2 案例研究——图模型在大众公司的应用 37
- 2.2.1 背景 37
- 2.2.2 问题 37
- 2.2.3 解决方案 38
- 2.3 贝叶斯统计简介 38
- 2.3.1 贝叶斯定理 39
- 2.3.2 贝叶斯网络 39
- 2.4 贝叶斯网络特性 43
- 2.5 贝叶斯网络中的概率推理 49
- 2.5.1 推断未观测变量 49
- 2.5.2 参数学习 49
- 2.5.3 结构学习 49
- 2.6 贝叶斯方法 51
- 2.6.1 变量消除 51
- 2.6.2 动态编程 52
- 2.6.3 逼近算法 52
- 2.7 贝叶斯网络的应用 54
- 练习 57
- 备忘单 59
- 第3讲 人工神经网络 60
- 3.1 神经网络简介 62
- 3.2 神经网络的应用 65
- 3.3 神经网络的结构 66
- 3.4 人工神经网络模型 68
- 3.4.1 多层感知器 68
- 3.4.2 径向基函数网络 69
- 3.4.3 Kohonen网络 70
- 3.5 学习规则 72
- 3.5.1 Hebbian学习规则 73
- 3.5.2 感知器学习规则 73
- 3.5.3 Delta学习规则(Windrow-Hoff学习规则) 74
- 3.5.4 相关学习规则 74
- 3.5.5 外向星学习规则 74
- 3.6 神经网络训练算法 75
- 3.6.1 梯度下降 76
- 3.6.2 演化算法 77
- 3.6.3 遗传算法 78
- 3.7 在R中实现神经网络 80
- 练习 84
- 备忘单 87
- 第4讲 在R中使用PCA和因子分析降维 88
- 4.1 降维简介 90
- 4.2 降维的应用 91
- 4.2.1 文档分类 91
- 4.2.2 基因表达微阵列分析 92
- 4.2.3 面部识别 93
- 4.3 因子分析 94
- 4.4 因子分析的应用 96
- 4.4.1 心理测验学中的因子分析 96
- 4.4.2 营销中的因子分析 97
- 4.5 因子分析方法 98
- 4.5.1 EFA和CFA的相似之处 98
- 4.5.2 EFA和CFA之间的差异 98
- 4.6 作为数据归约方法的因子分析 99
- 4.6.1 确定因子数量的标准 101
- 4.6.2 公因子方差 102
- 4.6.3 因子载荷 103
- 4.6.4 因子结构的旋转 104
- 4.6.5 旋转策略 104
- 4.6.6 因子结构的解读 105
- 4.6.7 层次化因子分析 106
- 4.6.8 因子得分 107
- 4.7 主成分分析 107
- 4.7.1 主成分分析的显著性 108
- 4.7.2 主成分的提取 108
- 4.7.3 主成分的特性 108
- 4.7.4 主成分分析的特性 109
- 4.8 主成分分析中的数据归约和解读 109
- 4.8.1 投影于一个轴上的惯性 110
- 4.8.2 距离 110
- 4.8.3 逆方差 110
- 4.8.4 协方差 111
- 4.8.5 变量的范数 112
- 4.8.6 因子轴 112
- 4.8.7 因子平面 112
- 4.8.8 主成分分析的目标 113
- 4.8.9 相关矩阵的特征值 113
- 4.8.10 变量的表示 113
- 4.8.11 个体的表示 114
- 4.8.12 主成分分析过程 114
- 4.8.13 选择主成分数量 116
- 4.8.14 主成分分析的变种 118
- 4.9 在R上实现主成分分析 120
- 4.9.1 示例1:欧洲人的蛋白质消耗 120
- 4.9.2 示例2:美国月度失业率 122
- 练习 123
- 备忘单 125
- 第5讲 支持向量机 127
- 5.1 支持向量机简介 128
- 5.2 支持向量机的应用领域 129
- 5.3 SVM算法 131
- 5.3.1 可分情况 132
- 5.3.2 不可分情况 133
- 5.4 线性支持向量机 135
- 5.4.1 原型 135
- 5.4.2 对偶形式 136
- 5.4.3 有偏和无偏超平面 137
- 5.5 核函数 137
- 5.5.1 核规则 137
- 5.5.2 支持向量机核示例 139
- 5.6 在R中训练和测试SVM模型 139
- 5.7 用SVM模型预测的实例 143
- 5.7.1 数据集 143
- 5.7.2 准备数据集 144
- 5.7.3 选择参数 144
- 5.7.4 训练模型 145
- 5.7.5 测试模型 146
- 练习 147
- 备忘单 149
- 模块2 社交媒体、移动分析和可视化
- 第1讲 大数据解决方案工程 153
- 1.1 大数据展望过程 154
- 1.1.1 步骤1:研究和面谈以理解业务活动 155
- 1.1.2 步骤2:获取和分析数据 157
- 1.1.3 步骤3:对新思路展开头脑风暴 158
- 1.1.4 步骤4:排定大数据集用例的优先级 159
- 1.1.5 步骤5:文档 160
- 1.2 大数据用例的优先级排定 160
- 1.2.1 优先顺序矩阵过程 161
- 1.2.2 优先顺序矩阵的陷阱 162
- 1.3 解决方案工程过程 164
- 1.3.1 第1步:理解组织是如何赚钱的 164
- 1.3.2 第2步:识别组织的关键业务活动 167
- 1.3.3 第3步:进行头脑风暴,确定大数据在业务上的作用 167
- 1.3.4 第4步:将业务活动分解为用例 168
- 1.3.5 第5步:证明用例 168
- 1.3.6 第6步:设计和实施大数据解决方案 169
- 1.4 解决方案工程示例 170
- 1.4.1 客户行为分析 171
- 1.4.2 减少欺诈行为 172
- 1.5 大数据解决方案的挑战 172
- 练习 174
- 备忘单 176
- 第2讲 社交媒体分析和文本分析 177
- 2.1 什么是社交媒体 178
- 2.2 社交分析、指标和计量 181
- 2.2.1 社交媒体分析工具 181
- 2.2.2 社交媒体分析与业务决策 182
- 2.2.3 社交媒体分析与其他分析类型的对比 184
- 2.3 社交媒体分析的关键要素 184
- 2.3.1 目标受众 184
- 2.3.2 预期行动 185
- 2.3.3 内容 185
- 2.3.4 内容机制 185
- 2.3.5 社交媒体分析中使用的技术 186
- 2.3.6 在线社交媒体分析工具 187
- 2.3.7 社交媒体分析所用的桌面应用程序 187
- 2.4 文本挖掘简介 188
- 2.4.1 文本挖掘工作方式 189
- 2.4.2 文本挖掘的应用 190
- 2.5 文本分析过程 190
- 2.6 情绪分析 192
- 2.6.1 情绪分析使用的方法 193
- 2.6.2 在线情绪分析 193
- 2.7 在R上实施Twitter情绪分析 194
- 练习 203
- 备忘单 205
- 第3讲 执行移动分析 207
- 3.1 移动分析简介 208
- 3.1.1 什么是移动分析 209
- 3.1.2 移动分析和Web分析 209
- 3.1.3 移动分析和商业价值 210
- 3.1.4 移动分析结果类型 210
- 3.1.5 移动分析应用类型 211
- 3.1.6 使用移动分析的领域 212
- 3.2 移动分析工具 212
- 3.2.1 基于位置的跟踪工具 213
- 3.2.2 实时分析工具 213
- 3.2.3 用户行为跟踪工具 214
- 3.3 执行移动分析 216
- 3.3.1 通过移动应用收集数据 216
- 3.3.2 将数据收集到服务器 217
- 3.4 应用分析报告 218
- 3.5 移动分析的挑战 219
- 3.5.1 网络问题 219
- 3.5.2 安全性问题和政府协议 220
- 练习 221
- 备忘单 223
- 第4讲 大数据可视化 225
- 4.1 什么是可视化 226
- 4.1.1 为什么对数据进行可视化 226
- 4.1.2 可视化技术 227
- 4.1.3 可视化类型 227
- 4.1.4 可视化的应用 228
- 4.2 大数据可视化的重要性 229
- 4.2.1 传统信息可视化的不足 229
- 4.2.2 大数据可视化的商业价值 229
- 4.2.3 用可视化将数据变成信息 230
- 4.2.4 使用不同工具的可视化示例 231
- 4.2.5 大数据可视化中的障碍 233
- 4.3 大数据可视化工具 233
- 4.3.1 大数据可视化专属服务 234
- 4.3.2 开源可视化程序库 234
- 4.3.3 用于大数据可视化的技术 235
- 4.4 Tableau产品 235
- 4.4.1 用Tableau Desktop创建可视化 236
- 4.4.2 Tableau Desktop工作区简介 239
- 4.4.3 多个工作表页面 240
- 4.4.4 Tableau工作区 240
- 4.5 使用数据源 246
- 4.5.1 用Tableau联合数据库表 246
- 4.5.2 连接到SQL 247
- 4.6 数据运算(排序、聚合、联接) 248
- 4.6.1 地图和地理单元 249
- 4.6.2 创建交互式可视化 251
- 练习 254
- 备忘单 256
- 第5讲 招聘准备 258
- 5.1 大数据分析师所需要的关键技能 260
- 5.2 大数据分析岗位职责 262
- 5.2.1 初级分析师 262
- 5.2.2 中级分析师 263
- 5.2.3 高级分析师 263
- 5.3 大数据工作机会领域 264
- 模块3 大数据分析的行业应用
- 第1讲 大数据业务问题和解决方案—保险欺诈分析 273
- 1.1 背景 274
- 1.1.1 保险合同 275
- 1.1.2 保单类型 275
- 1.2 保险欺诈及其影响 276
- 1.3 场景 277
- 1.4 数据的解释 277
- 1.5 方法论 278
- 1.6 具体做法 279
- 1.7 结论 280
- 第2讲 大数据业务问题和解决方案—信用风险 281
- 2.1 背景 282
- 2.2 场景 283
- 2.3 数据的解释 284
- 2.4 方法论和具体做法 285
- 2.5 结论 287
- 第3讲 大数据业务问题和解决方案—典型行业 288
- 3.1 背景 289
- 3.1.1 客户流失 289
- 3.1.2 缺乏最优营销策略 289
- 3.1.3 呼叫数据记录(CDR)分析的需求 290
- 3.2 为增加利润而进行数据分析 290
- 3.2.1 避免客户流失 290
- 3.2.2 采用最优的营销策略 290
- 3.2.3 分析呼叫详细记录 291
- 3.3 场景 291
- 3.4 数据的解释 291
- 3.5 方法论 294
- 3.6 具体做法 295
- 3.6.1 高管视图 295
- 3.6.2 中层管理视图 296
- 3.6.3 代理人视图 296
- 3.7 结论 298
- 第4讲 大数据业务问题和解决方案—在线客户细分 299
- 4.1 背景 300
- 4.2 为客户细分进行数据分析 301
- 4.3 场景 302
- 4.4 数据的解释 302
- 4.5 方法论 302
- 4.6 具体做法 303
- 4.7 结论 305
- 第5讲 大数据业务问题和解决方案—在电子商务中使用可视化工具 306
- 5.1 背景 307
- 5.2 场景 310
- 5.3 数据的解释 310
- 5.4 方法论 311
- 5.5 具体做法 311
- 5.6 结论 317