随着R在各个数据分析领域的广泛应用,学习运用R语言处理和分析问题越来越受到人们的关注。然而,国内关于R语言应用方面的著作并未详尽地介绍其在统计学领域的使用和开发。而且对于非统计学专业,或并未接受过编程训练的朋友,在使用R语句进行数据分析时,很容易出现不知如何处理,以及得出结果后不知如何进行解释等问题。本书从应用的角度对有分析需求或有学习兴趣的朋友给予一定的指导,为读者详细展示了数据获取—数据分析—统计建模—解释说明整个过程。
在翻译本书时,我竭尽全力注重每个细节,希望可以尽己之所能,还原作者的研究成果,并清晰简洁地呈现给读者。但是译文也可能会存在一些问题,还请大家见谅并予以指正。
在此还要感谢我的导师易丹辉教授对我孜孜不倦的教诲,让我用踏实认真的态度完成整本书的翻译和审校。感谢我的家人,谢谢他们一路走来对我的陪伴、包容和理解。最后,我要特别感谢我的至爱刘钰洁,大学同学李倩、刘双和翟树芬,研究生同学蔡丽、鲁韶菲和宋丹,感谢他们利用自己宝贵的时间和精力参与本书翻译和审校工作,并对他们所付出的辛苦和汗水表示诚挚的敬意。
希望本书可以对广大有需求的读者有所帮助。
封面图
目录
- 译者序
- 前言
- 第1章数据特征1
- 1.1问卷调查及其组成部分1
- 1.2在计算机科学中的不确定性研究5
- 1.3R安装6
- 1.3.1使用R包7
- 1.3.2RSADBE——本书的R包8
- 1.3.3离散分布9
- 1.3.4离散均匀分布10
- 1.3.5二项分布11
- 1.3.6超几何分布13
- 1.3.7负二项分布14
- 1.3.8泊松分布15
- 1.4连续分布16
- 1.4.1均匀分布16
- 1.4.2指数分布17
- 1.4.3正态分布18
- 1.5本章小结20
- 第2章数据导入和导出21
- 2.1data.frame和其他格式数据21
- 2.1.1常数、向量和矩阵21
- 2.1.2列表对象28
- 2.1.3data.frame对象30
- 2.1.4表对象33
- 2.2函数read.csv、read.xls以及外来程序包35
- 2.3导出数据/图表41
- 2.3.1导出R对象41
- 2.3.2导出图表41
- 2.4管理一个R会话43
- 2.5本章小结45
- 第3章数据可视化46
- 3.1分类数据的可视化技术47
- 3.1.1条形图47
- 3.1.2点图52
- 3.1.3脊柱图、马赛克图54
- 3.1.4饼图和四折图58
- 3.2连续型变量数据的可视化59
- 3.2.1箱线图60
- 3.2.2直方图62
- 3.2.3散点图66
- 3.2.4帕累托图70
- 3.3ggplot概述71
- 3.4本章小结73
- 第4章探索性分析75
- 4.1基本汇总统计量75
- 4.1.1百分位数、四分位数和中位数76
- 4.1.2折页数76
- 4.1.3四分位极差77
- 4.2茎叶图80
- 4.3字母值83
- 4.4数据变换84
- 4.5袋状图:二元箱线图86
- 4.6耐抗线88
- 4.7平滑数据90
- 4.8中位数平滑93
- 4.9本章小结95
- 第5章统计推断97
- 5.1极大似然估计98
- 5.1.1可视化似然函数98
- 5.1.2寻找极大似然估计101
- 5.1.3使用fitdistr函数103
- 5.2置信区间105
- 5.3假设检验108
- 5.3.1二项式检验109
- 5.3.2比例检验和卡方检验111
- 5.3.3基于正态分布检验:单样本113
- 5.3.4基于正态分布检验:两样本118
- 5.4本章小结121
- 第6章线性回归分析122
- 6.1简单线性回归模型123
- 6.1.1随意选择参数会发生什么123
- 6.1.2建立一个简单线性回归模型126
- 6.1.3ANOVA及置信区间128
- 6.1.4模型验证129
- 6.2多元线性回归模型133
- 6.2.1平均K个简单线性回归模型或建立一个多元回归模型134
- 6.2.2建立一个多元线性回归模型136
- 6.2.3多元线性回归模型的ANOVA和置信区间137
- 6.2.4有用的残差图139
- 6.3回归诊断141
- 6.3.1杠杆点142
- 6.3.2影响点142
- 6.3.3DFFITS 和DFBETAS143
- 6.4多重共线性问题143
- 6.5选择模型145
- 6.5.1逐步选择145
- 6.5.2基于准则的方法 146
- 6.6本章小结150
- 第7章logistic回归模型151
- 7.1二元回归问题151
- 7.2probit回归模型153
- 7.3logistic 回归模型155
- 7.4模型验证和诊断160
- 7.4.1广义线性模型的残差图160
- 7.4.2广义线性模型的影响点和控制点163
- 7.5接收操作曲线166
- 7.6德国的信用甄别数据集的logistic回归168
- 7.7本章小结171
- 第8章正规化回归模型172
- 8.1过度拟合问题172
- 8.2回归样条176
- 8.2.1基函数176
- 8.2.2分段线性回归模型176
- 8.2.3自然三次样条函数和一般的B样条曲线179
- 8.3线性模型的岭回归183
- 8.4 logistic回归模型的岭回归187
- 8.5再看模型评估188
- 8.6本章小结193
- 第9章分类与回归树194
- 9.1递归划分法194
- 9.1.1划分数据196
- 9.1.2第一个树197
- 9.2构造回归树200
- 9.3构造分类树209
- 9.4德国信用数据集的分类树215
- 9.5树的修剪和完善218
- 9.6本章小结220
- 第10章分类与回归树及其他222
- 10.1分类与回归树的改进222
- 10.2Bagging225
- 10.2.1bootstrap算法225
- 10.2.2bagging算法227
- 10.3随机森林230
- 10.4整合233
- 10.5本章小结238
- 参考文献239