这书根据简易形象化的R编码、慢慢深层次的解读及其节省成本的方式 ,出示了很多数据统计分析样例,终协助你高效率地处理各种统计数据难题。第1章详细介绍了怎样建立R涵数,防止多余的编码反复。你能学得怎样依靠R程序包在各种各样数据库上提前准备、解决和实行繁杂的ETL实际操作。后边的章节目录详细介绍了财务报表的时间序列分析,一起还详细介绍了深度学习的好多个网络热点,比如数据分类、重归、聚类分析法、关联规则发掘、降维等。这书的末尾中,你能学得怎样处理具体难题,并可以在数据统计分析全过程中轻轻松松地得出解决方法。
目录
- 推荐序
- 译者序
- 前言
- 第1章 R中的函数1
- 1.1引言1
- 1.2 创建R函数2
- 1.3 匹配参数3
- 1.4 理解环境5
- 1.5 使用词法域8
- 1.6 理解闭包10
- 1.7 执行延迟计算12
- 1.8 创建中缀操作符13
- 1.9 使用替代函数15
- 1.10 处理函数中的错误17
- 1.11 调试函数21
- 第2章 数据抽取、转换和加载28
- 2.1 引言28
- 2.2 下载公开数据28
- 2.3 读取和写入CSV文件31
- 2.4 扫描文本文件32
- 2.5 使用Excel文件34
- 2.6 从数据库中读取数据36
- 2.7 爬取网络数据38
- 2.8 获取Facebook数据44
- 2.9 使用twitteR49
- 第3章 数据预处理和准备53
- 3.1 引言53
- 3.2 重命名数据变量53
- 3.3 转换数据类型55
- 3.4 使用日期格式57
- 3.5 添加新的记录58
- 3.6 过滤数据60
- 3.7 舍弃数据63
- 3.8 合并数据64
- 3.9 排列数据65
- 3.10 重塑数据67
- 3.11 检测缺失数据69
- 3.12 估计缺失数据71
- 第4章 数据操作74
- 4.1 引言74
- 4.2 使用data.table加强data.frame74
- 4.3 使用data.table管理数据77
- 4.4 使用data.table执行快速聚合82
- 4.5 使用data.table合并大型数据集85
- 4.6 使用dplyr进行数据抽取和切片88
- 4.7 使用dplyr进行数据抽样91
- 4.8 使用dplyr选取列92
- 4.9 使用dplyr进行链式操作94
- 4.10 使用dplyr整理行95
- 4.11 使用dplyr消除重复行97
- 4.12 使用dplyr添加新列98
- 4.13 使用dplyr汇总数据99
- 4.14 使用dplyr合并数据102
- 第5章 使用ggplot2可视化数据105
- 5.1 引言105
- 5.2 使用ggplot2创建基础图形106
- 5.3 改变美学映射109
- 5.4 引入几何对象112
- 5.5 执行变换116
- 5.6 调整图形尺度118
- 5.7 分面120
- 5.8 调整主题122
- 5.9 组合图形124
- 5.10 创建地图126
- 第6章 制作交互式报告131
- 6.1 引言131
- 6.2 创建R Markdown报告131
- 6.3 学习markdown语法135
- 6.4 嵌入R代码块137
- 6.5 使用ggvis创建交互式图形140
- 6.6 理解基础语法143
- 6.7 控制坐标轴和图例148
- 6.8 使用尺度153
- 6.9 给ggvis图形添加交互154
- 6.10 创建R Shiny文档159
- 6.11 发布R Shiny报告164
- 第7章 概率分布模拟169
- 7.1 引言169
- 7.2 生成随机样本169
- 7.3 理解均匀分布171
- 7.4 生成二项随机变量173
- 7.5 生成泊松随机变量175
- 7.6 从正态分布中抽样177
- 7.7 从卡方分布中抽样183
- 7.8 理解学生t-分布185
- 7.9 从数据集中抽样187
- 7.10 模拟随机过程188
- 第8章 R中的统计推断191
- 8.1 引言191
- 8.2 获取置信区间191
- 8.3 执行Z-检验196
- 8.4 执行学生T-检验199
- 8.5 执行精确二项检验202
- 8.6 执行Kolmogorov-Smirnov检验203
- 8.7 使用Pearson卡方检验205
- 8.8 理解Wilcoxon秩和检验207
- 8.9 执行单因素方差分析209
- 8.10 执行双因素方差分析212
- 第9章 R语言规则和模式挖掘216
- 9.1 引言216
- 9.2 把数据转换为事务216
- 9.3 展示事务和关联218
- 9.4 使用Apriori规则挖掘关联关系220
- 9.5 对冗余规则剪枝223
- 9.6 可视化关联规则224
- 9.7 使用Eclat挖掘频繁项集226
- 9.8 使用时序信息创建事务228
- 9.9 使用cSPADE挖掘频繁序列模式231
- 第10章 R语言时间序列挖掘235
- 10.1 引言235
- 10.2 创建时间序列数据235
- 10.3 绘制时间序列对象238
- 10.4 分解时间序列241
- 10.5 平滑时间序列243
- 10.6 预测时间序列247
- 10.7 选取ARIMA模型251
- 10.8 创建ARIMA模型255
- 10.9 使用ARIMA模型预测257
- 10.10 使用ARIMA模型预测股票价格260
- 第11章 监督式机器学习264
- 11.1 引言264
- 11.2 使用lm拟合线性回归模型264
- 11.3 汇总线性模型拟合266
- 11.4 使用线性回归来预测未知值268
- 11.5 度量回归模型的性能270
- 11.6 执行多元回归分析272
- 11.7 使用逐步回归选取最优拟合回归模型274
- 11.8 应用高斯模型泛化线性回归276
- 11.9 执行逻辑斯谛回归分析277
- 11.10 使用递归分割树构建分类模型280
- 11.11 可视化递归分割树282
- 11.12 使用混淆矩阵度量模型性能283
- 11.13 使用ROCR度量预测性能285
- 第12章 非监督式机器学习288
- 12.1 引言288
- 12.2 使用层次聚类法对数据聚类288
- 12.3 切割树成聚类291
- 12.4 使用k-means方法对数据聚类293
- 12.5 使用基于密度的方法对数据聚类294
- 12.6 从聚类中抽取轮廓信息296
- 12.7 比较多种聚类方法298
- 12.8 使用基于密度的聚类识别数字299
- 12.9 使用k-means聚类方法分组相似文本文档301
- 12.10 使用主成分分析法进行数据降维303
- 12.11 使用陡坡图确定主成分数量305
- 12.12 使用Kaiser方法确定主成分数量306
- 12.13 使用双标图可视化多变元数据308