数据挖掘技术已经广泛用于政府机关、银行、保险、零售、电信、医药和研究领域。最近,越来越多的数据挖掘工作开始使用R工具来完成,R是一个用于统计计算和制图的免费软件。在最近的调查中,R已经被评为数据挖掘领域最流行的工具。本书介绍将R语言用于数据挖掘应用(从学术研究到工业应用),从大量数据中提取出有用知识的各种实用方法。
本书主要特色
- 介绍了R用于数据挖掘应用的案例,涵盖了最常用的数据挖掘技术。
- 提供了代码示例和数据,以便读者可以轻松地学习数据挖掘技术。
- 现实应用中的特色案例研究有助于读者将学到的技术应用到自己的工作和研究中。
目录
- 第1章 简介1
- 1.1 数据挖掘1
- 1.2 R1
- 1.3 数据集2
- 1.3.1 iris数据集2
- 1.3.2 bodyfat数据集3
- 第2章 数据的导入与导出4
- 2.1 R数据的保存与加载4
- 2.2 .CSV文件的导入与导出4
- 2.3 从SAS中导入数据5
- 2.4 通过ODBC导入与导出数据6
- 2.4.1 从数据库中读取数据7
- 2.4.2 从Excel文件中导入与导出数据7
- 第3章 数据探索8
- 3.1 查看数据8
- 3.2 探索单个变量10
- 3.3 探索多个变量12
- 3.4 更多探索15
- 3.5 将图表保存到文件中19
- 第4章 决策树与随机森林21
- 4.1 使用party包构建决策树21
- 4.2 使用rpart包构建决策树24
- 4.3 随机森林29
- 第5章 回归分析33
- 5.1 线性回归33
- 5.2 逻辑回归38
- 5.3 广义线性回归38
- 5.4 非线性回归40
- 第6章 聚类41
- 6.1 k-means聚类41
- 6.2 k-medoids聚类43
- 6.3 层次聚类45
- 6.4 基于密度的聚类46
- 第7章 离群点检测50
- 7.1 单变量的离群点检测50
- 7.2 局部离群点因子检测53
- 7.3 用聚类方法进行离群点检测56
- 7.4 时间序列数据的离群点检测58
- 7.5 讨论59
- 第8章 时间序列分析与挖掘60
- 8.1 R中的时间序列数据60
- 8.2 时间序列分解60
- 8.3 时间序列预测62
- 8.4 时间序列聚类63
- 8.4.1 动态时间规整63
- 8.4.2 合成控制图的时间序列数据64
- 8.4.3 基于欧氏距离的层次聚类65
- 8.4.4 基于DTW距离的层次聚类66
- 8.5 时间序列分类67
- 8.5.1 基于原始数据的分类67
- 8.5.2 基于特征提取的分类68
- 8.5.3 k-NN分类69
- 8.6 讨论70
- 8.7 延伸阅读70
- 第9章 关联规则71
- 9.1 关联规则的基本概念71
- 9.2 Titanic数据集71
- 9.3 关联规则挖掘73
- 9.4 消除冗余78
- 9.5 解释规则79
- 9.6 关联规则的可视化80
- 9.7 讨论与延伸阅读82
- 第10章 文本挖掘84
- 10.1 Twitter的文本检索84
- 10.2 转换文本85
- 10.3 提取词干86
- 10.4 建立词项-文档矩阵88
- 10.5 频繁词项与关联90
- 10.6 词云91
- 10.7 词项聚类92
- 10.8 推文聚类94
- 10.8.1 基于k-means算法的推文聚类94
- 10.8.2 基于k-medoids算法的推文聚类96
- 10.9 程序包、延伸阅读与讨论98
- 第11章 社交网络分析99
- 11.1词项网络99
- 11.2推文网络102
- 11.3双模式网络107
- 11.4讨论与延伸阅读110
- 第12章 案例Ⅰ:房价指数的分析与预测111
- 12.1HPI数据导入111
- 12.2HPI数据探索112
- 12.3HPI趋势与季节性成分118
- 12.4HPI预测120
- 12.5房地产估价122
- 12.6讨论122
- 第13章 案例Ⅱ:客户回复预测与效益最大化123
- 13.1简介123
- 13.2KDD Cup 1998的数据123
- 13.3数据探索131
- 13.4训练决策树137
- 13.5模型评估140
- 13.6选择最优决策树143
- 13.7评分145
- 13.8讨论与总结148
- 第14章 案例Ⅲ:内存受限的大数据预测模型150
- 14.1简介150
- 14.2研究方法150
- 14.3数据与变量151
- 14.4随机森林152
- 14.5内存问题153
- 14.6样本数据的训练模型154
- 14.7使用已选变量建立模型156
- 14.8评分162
- 14.9输出规则168
- 14.9.1以文本格式输出规则168
- 14.9.2输出SAS规则的得分172
- 14.10总结与讨论177
- 第15章 在线资源178
- 15.1R参考文档178
- 15.2R178
- 15.3数据挖掘179
- 15.4R的数据挖掘180
- 15.5R的分类与预测181
- 15.6R的时间序列分析181
- 15.7R的关联规则挖掘181
- 15.8R的空间数据分析181
- 15.9R的文本挖掘182
- 15.10R的社交网络分析182
- 15.11R的数据清洗与转换182
- 15.12R的大数据与并行计算182
- R语言数据挖掘参考文档184
- 参考资料197
- 通用索引201
- 包索引203
- 函数索引204