当前位置:主页 > 书籍配套资源 > R语言配套资源
《R数据分析秘笈》源代码

《R数据分析秘笈》源代码

  • 更新:2022-03-23
  • 大小:2.1 MB
  • 类别:R语言
  • 作者:维西瓦·维斯瓦纳坦
  • 出版:机械工业出版社
  • 格式:PDF

  • 资源介绍
  • 相关推荐

尽管仍然受到战争、饥饿、环境等问题的困扰,但无法否认的是,人类正处于历史上最好的时代。得益于计算机和数据处理技术的飞速发展,以自动驾驶汽车、Siri语音助手、随时随地的手机支付等为代表的现代技术应用正将人类照顾得无微不至。对于数学、统计、计算机专业的人来说,这更是一个最好的时代,因为我们有幸见证了机器学习、自然语言处理、高速计算机集群的大规模应用,并实实在在地改变了我们的世界。

数据分析对于业界有没有用?有多大用处?从20世纪末的冷遇到现在的如日中天,我相信很多人都感受到了整个世界对于数据价值理解的巨大变化。在这十多年中,R作为数据科学最为青睐的语言之一,迅速地从学界渗透到业界,发展壮大。
一直以来,R最大的优势就是全球统计界(现在应该还要加上数据科学界)的强力支持(截至我写这篇序的这一刻,CRAN上已经有7514个包)。这一点是任何其他数据分析工具所不可比拟的(比如SAS、Python、SPSS等)。除此之外,R的灵活和开放性也使它能够很好地与其他语言和数据库沟通,以及处理非结构化的数据。
自从2008年我在美留学期间接触到R语言以来,不知不觉已经是第8个年头,而中国的R语言大会也已经如火如荼地开到了第八届。这几年中,我有幸目睹了R在学术界和业界的迅速发展,看到了一批又一批的优秀人才涌入到数据科学的浪潮中,而我自己也从R语言的学习者逐渐转向了它的传播者。这几年来,我在大学教授统计/数据分析课程,并为业界解决一些实际问题。以我浅薄的经验来看,一方面,就业市场对于统计类人才的渴望越来越强烈;然而另一方面,统计系毕业的学生又很少能在毕业时拥有在实际环境中处理数据的能力。原因是多方面的,比较重要的一点是,很多学校在教授统计/数据分析类课程的时候,缺少真实环境下的分析能力培养,教材也多偏重于统计理论或者R语言的基础,合适的教材比较匮乏。我也曾考虑将这几年教学和实践中对于数据处理的一些流程技巧整理编成一个小册子,但未能完成。

当看到本书的目录时,我立刻感觉到非常强烈的共鸣—Viswa Viswanathan教授已经将R数据分析完美呈现。从各类源数据的读入和调整,数据分析前的准备工作、清洗、转换,到面向各类需求的各种模型,再到能够显著提高效率的自动化报告系统knitr和交互式可视化系统shiny,最后到与Java、MySQL、MongoDB和Excel之间的配合工作,本书为初级和中级数据分析师准备了八十多种方法,帮助他们完成真实场景中的各项任务。

同时,书中的每一个章节都相对独立,作者为其设定了非常清晰的内容结构,尽量减少读者不停翻阅前文的情况(当然,第一次从头到尾读下来的读者可能会觉得这位严谨的教授有点烦,但当你在半年后需要查询书中的某一个方法时,也许会改变这一想法)。
最后,我想在此感谢我的父母和我的妻子,在我常常翻译到深夜的日子里,是他们无微不至地照顾一岁多的小朋友。我也要感谢Rigi,你为这个家庭带来了无数的欢乐,希望你健康快乐地成长。

封面图

目录

  • 译者序
  • 作者简介
  • 审校者简介
  • 前言
  • 第1章获取并准备好材料—数据1
  • 1.1引言1
  • 1.2从csv文件中读取数据1
  • 1.3读取XML数据4
  • 1.4读取JSON数据6
  • 1.5从定宽格式文件中读取数据7
  • 1.6从R数据文件和R库中读取数据8
  • 1.7删除带有缺失值的样本10
  • 1.8用均值填充缺失值11
  • 1.9删除重复样本13
  • 1.10将变量缩放至[0,1]区间14
  • 1.11对数据框中的数据做正则化或标准化15
  • 1.12为数值数据分箱17
  • 1.13为分类变量创建哑变量18
  • 第2章那里面有什么——探索性数据分析21
  • 2.1引言21
  • 2.2创建标准化数据概览21
  • 2.3抽取数据集的子集23
  • 2.4分割数据集25
  • 2.5创建随机数据分块26
  • 2.6创建直方图、箱线图、散点图等标准化图像29
  • 2.7在网格窗口上创建多个图像37
  • 2.8选择图形设备38
  • 2.9用lattice包绘图39
  • 2.10用ggplot2包绘图42
  • 2.11创建便于比较的图表47
  • 2.12创建有助于发现因果关系的图表51
  • 2.13创建多元图像53
  • 第3章它属于哪儿——分类技术55
  • 3.1引言55
  • 3.2创建误差/分类–混淆矩阵55
  • 3.3创建ROC图58
  • 3.4构建、绘制和评估—分类树61
  • 3.5用随机森林模型分类 66
  • 3.6用支持向量机分类69
  • 3.7用朴素贝叶斯分类72
  • 3.8用K最近邻分类74
  • 3.9用神经网络分类77
  • 3.10用线性判别函数分类79
  • 3.11用逻辑回归分类80
  • 3.12用AdaBoost来整合分类树模型83
  • 第4章给我一个数——回归分析86
  • 4.1引言86
  • 4.2计算均方根误差86
  • 4.3建立用于回归的KNN模型88
  • 4.4运用线性回归94
  • 4.5在线性回归中运用变量选择99
  • 4.6建立回归树102
  • 4.7建立用于回归的随机森林模型108
  • 4.8用神经网络做回归112
  • 4.9运用K-折交叉验证114
  • 4.10运用留一交叉验证来限制过度拟合116
  • 第5章你能化简它吗——数据简化技术118
  • 5.1引言118
  • 5.2用K-均值聚类法实现聚类分析118
  • 5.3用系统聚类法实现聚类分析124
  • 5.4用主成分分析降低维度127
  • 第6章从历史中学习——时间序列分析134
  • 6.1引言134
  • 6.2创建并检查日期对象134
  • 6.3对日期对象进行操作138
  • 6.4对时间序列数据做初步分析140
  • 6.5使用时间序列对象143
  • 6.6分解时间序列149
  • 6.7对时间序列数据做滤波151
  • 6.8用HoltWinters 方法实现平滑和预测152
  • 6.9创建自动的ARIMA模型155
  • 第7章这都是你的关系——社交网络分析157
  • 7.1引言157
  • 7.2通过公共API下载社交网络数据157
  • 7.3创建邻接矩阵和连边列表161
  • 7.4绘制社交网络数据164
  • 7.5计算重要的网络度量指标176
  • 第8章展现你最好的一面——制作文档和呈现分析报告182
  • 8.1引言182
  • 8.2用R Markdown 和 knitR创建数据分析报告182
  • 8.3用shiny创建交互式Web应用191
  • 8.4用R Presentation为分析报告创建PDF幻灯片196
  • 第9章事半功倍——高效且简洁的R代码201
  • 9.1引言201
  • 9.2利用向量化操作201
  • 9.3用apply函数操作整行或整列203
  • 9.4用lapply和sapply将函数应用于整组元素206
  • 9.5在向量的一个子集上应用函数208
  • 9.6用plyr完成分割–应用–组合策略210
  • 9.7用数据表对数据进行切片、切块和组合213
  • 第10章在哪儿——地理空间信息数据分析219
  • 10.1引言219
  • 10.2下载并绘制一个地区的谷歌地图219
  • 10.3在已下载的谷歌地图上叠加数据222
  • 10.4将ESRI形状文件导入到R中224
  • 10.5使用sp包绘制地理数据226
  • 10.6从maps包中获取地图228
  • 10.7从包含空间及其他数据的普通数据框中创建空间数据框229
  • 10.8通过合并普通数据框和空间对象生成空间数据框230
  • 10.9为已有的空间数据框添加变量234
  • 第11章友好协作——连接到其他系统237
  • 11.1引言237
  • 11.2在R中使用Java对象237
  • 11.3从Java中用JRI调用R函数243
  • 11.4从Java中用Rserve调用R函数245
  • 11.5从Java中执行R脚本248
  • 11.6使用xlsx包连接到Excel249
  • 11.7从关系型数据库—MySQL中读取数据252
  • 11.8从非关系型数据库—MongoDB中读取数据256

资源下载

资源下载地址1:https://pan.baidu.com/s/1HPqj23tGuh0_Zsf9jsJK6Q

相关资源

网友留言