随着大数据的概念变得越来越流行,对数据的探索、分析和预测成为大数据分析领域的基本技能之一。作为探索和分析数据的基本理论与工具,机器学习和数据挖掘成为时下非常热门的技术。R作为功能强大并且免费的数据分析工具,在机器学习领域获得了越来越多
用户的青睐。本书介绍了如何用R来进行实际应用中的机器学习,以及如何从数据中获取信息以帮助决策。本书的作者Raghav Bali在机器学习领域具有丰富的实践经验。他在本书中介绍了多种机器学习算法,并且给出了机器学习最热门的3个领域(涵盖电子商务、金融和社交媒体领域)中的案例。对于每一个实际案例,从对案例数据的探索、整理,到模型的建立和评估,每一步都给出了详尽的步骤和R代码。读者从中可以掌握机器学习和R语言的应用与技巧,同时也可以学习相关的领域知识。
本书共分8章。第1章介绍了R语言和机器学习的基本概念与理论。第2章介绍了机器学习的核心概念和各种类型的机器学习算法与应用。第3章到第8章以现实世界中的3个典型机器学习案例为线索,介绍了应用R进行机器学习和数据分析的整个过程。它们分别是:市场
购物篮分析和推荐系统、信用风险检测和预测的描述性分析与预测性分析、社交媒体数据分析。
封面图
目录
- 译者序
- 前言
- 关于作者
- 关于审稿人
- 第1章开始使用R语言和机器学习1
- 1.1探究R的基本内容2
- 1.1.1使用R作为科学计算器2
- 1.1.2向量运算3
- 1.1.3特殊值5
- 1.2R的数据结构5
- 1.2.1向量6
- 1.2.2数组和矩阵8
- 1.2.3列表13
- 1.2.4数据框16
- 1.3使用函数20
- 1.3.1内置函数20
- 1.3.2用户自定义函数20
- 1.3.3以参数形式传递函数21
- 1.4控制代码流22
- 1.4.1使用if、if-else和ifelse语句22
- 1.4.2使用switch语句23
- 1.4.3循环23
- 1.5高级结构24
- 1.5.1lapply和sapply函数25
- 1.5.2apply函数26
- 1.5.3tapply函数27
- 1.5.4mapply函数28
- 1.6进一步使用R29
- 1.6.1获得帮助29
- 1.6.2处理添加包30
- 1.7机器学习基础30
- 1.7.1机器学习——真正的含义是什么30
- 1.7.2机器学习——如何应用于现实世界31
- 1.7.3机器学习算法的类型32
- 1.8总结33
- 第2章让我们进行机器学习34
- 2.1理解机器学习35
- 2.2机器学习算法35
- 2.3算法家族40
- 2.3.1有监督学习算法41
- 2.3.2无监督学习算法52
- 2.4总结57
- 第3章应用市场购物篮分析预测顾客购买趋势58
- 3.1检测和预测趋势59
- 3.2市场购物篮分析60
- 3.2.1市场购物篮分析的真正含义60
- 3.2.2核心概念和定义60
- 3.2.3用于分析的技术62
- 3.2.4制定数据驱动的决策63
- 3.3评估产品列联矩阵63
- 3.3.1获取数据64
- 3.3.2分析和可视化数据65
- 3.3.3整体推荐66
- 3.3.4高级列联矩阵67
- 3.4频繁项集的生成69
- 3.4.1开始69
- 3.4.2数据检索和转换69
- 3.4.3建立项集关联矩阵70
- 3.4.4建立频繁项集生成工作流72
- 3.4.5检测购物趋势74
- 3.5关联规则挖掘75
- 3.5.1加载添加包和数据76
- 3.5.2探索性分析76
- 3.5.3检测和预测购物趋势77
- 3.5.4关联规则可视化80
- 3.6总结80
- 第4章建立产品推荐系统82
- 4.1理解推荐系统83
- 4.2推荐系统存在的问题83
- 4.3协同过滤器84
- 4.3.1核心概念和定义84
- 4.3.2协同过滤算法85
- 4.4建立推荐引擎87
- 4.4.1矩阵分解88
- 4.4.2算法实现90
- 4.4.3解释结果94
- 4.5产品推荐引擎实战95
- 4.5.1提取、转换并分析数据96
- 4.5.2模型准备和预测99
- 4.5.3模型评价100
- 4.6总结102
- 第5章信用风险检测和预测——描述分析103
- 5.1分析的类型104
- 5.2我们将要面临的挑战104
- 5.3什么是信用风险105
- 5.4获取数据105
- 5.5数据处理107
- 5.5.1处理缺失值107
- 5.5.2数据类型转换108
- 5.6数据分析和变换109
- 5.6.1建立分析实用函数110
- 5.6.2分析数据集113
- 5.6.3保存变换后的数据集130
- 5.7接下来的步骤130
- 5.7.1建立特征集130
- 5.7.2选择机器学习算法131
- 5.8总结131
- 第6章信用风险检测和预测——预测分析133
- 6.1预测分析134
- 6.2如何预测信用风险135
- 6.3预测模型中的重要概念137
- 6.3.1准备数据137
- 6.3.2建立预测模型137
- 6.3.3评估预测模型138
- 6.4获取数据140
- 6.5数据处理141
- 6.6特征选择142
- 6.7应用逻辑回归建立模型144
- 6.8应用支持向量机建立模型148
- 6.9应用决策树建立模型156
- 6.10应用随机森林建立模型161
- 6.11应用神经网络建立模型165
- 6.12模型比较和选择169
- 6.13总结171
- 第7章社交媒体分析:分析Twitter数据172
- 7.1社交网络(Twitter)172
- 7.2数据挖掘与社交网络174
- 7.2.1挖掘社交网络数据175
- 7.2.2数据和可视化176
- 7.3从Twitter API开始179
- 7.3.1概览179
- 7.3.2注册应用180
- 7.3.3链接/认证181
- 7.3.4提取推文示例182
- 7.4Twitter数据挖掘183
- 7.4.1常用词汇和关联186
- 7.4.2广泛使用的设备191
- 7.4.3层次聚类192
- 7.4.4主题建模194
- 7.5社交网络数据挖掘带来的挑战197
- 7.6参考文献198
- 7.7总结198
- 第8章Twitter数据的情感分析200
- 8.1理解情感分析201
- 8.1.1情感分析的关键概念201
- 8.1.2方法204
- 8.1.3应用205
- 8.1.4挑战206
- 8.2推文中的情感分析206
- 8.2.1极性分析208
- 8.2.2基于分类的算法212
- 8.3总结223