在大数据时代,R以其强大的数据分析挖掘、可视化绘图等功能,越来越受到社会各个领域的青睐。现在,R的计算引擎、性能、程序包都得到了提升,其中R与大数据分析平台Hadoop的结合,实现了R对大数据的分析式处理分析。这些不仅大大扩展了R的应用,也扩大了R在各行业的需求。
为了更好地适应新形势,掌握大数据分析处理的相关知识是很有必要的。本书从理论基础、方法、实证三方面详细地阐释了R和RHadoop的相关理论、技术以及应用,使读者了解大数据的基础概念,掌握R以及Rhadoop大数据分析技术。本书不仅适合高等院校的各相关专业的本专科生、研究生,也适合零编程基础的科研人员以及对大数据分析技术感兴趣的人士阅读。本书在内容的选择和结构的安排上进行了深入的思考,使得不论是R或RHadoop的初学者还是具备一定相关专业知识的人员都能从本书中得到一定的收获或启发。
目录
- 第一部分大数据简介
- 第1章大数据概述
- 1.1大数据的概念
- 1.2大数据的特征
- 1.3大数据的产生
- 1.4大数据应用案例
- 第2章大数据相关技术
- 2.1数据采集和准备
- 2.2分布式数据库
- 2.3分布式数据分析框架
- 2.3.1Hadoop
- 2.3.2HDFS
- 2.3.3HBase
- 2.3.4Hive
- 2.3.5MapReduce
- 2.3.6Strom
- 2.4大数据分析与R
- 2.4.1RHadoop
- 2.4.2RHIPE
- 2.4.3RHive
- 2.4.4RHBase
- 2.5国泰安的大数据
- 2.5.1大数据实验室建设
- 2.5.2大数据分析平台
- 第二部分R语言
- 第3章R语言简介
- 3.1R语言概述
- 3.2R的下载、安装和使用
- 3.2.1RGui界面
- 3.2.2RStudio界面
- 3.2.3R的运行
- 3.2.4工作目录和工作空间
- 3.2.5R语言的帮助
- 3.3R的包
- 3.3.1包的获取
- 3.3.2包的安装
- 3.3.3包的加载
- 3.3.4包的使用
- 第4章R语言基本操作
- 4.1数据结构
- 4.2数据的基本操作
- 4.2.1赋值和创建
- 4.2.2数据的运算
- 4.2.3数据的导入
- 4.3数据的管理
- 4.3.1数据排序
- 4.3.2数据集的合并
- 4.3.3剔除变量
- 4.3.4数据集提取
- 4.3.5subset函数
- 4.4常用函数
- 第5章R语言绘图
- 5.1绘图参数
- 5.1.1符号、线条与颜色
- 5.1.2标题、坐标轴与图例
- 5.1.3文本属性
- 5.1.4图形的组合
- 5.2高级绘图函数
- 5.2.1通用二维图
- 5.2.2饼图
- 5.2.3箱线图
- 5.2.4条形图
- 5.2.5直方图
- 5.2.6核密度图
- 5.2.7点图
- 5.3低级绘图函数
- 第6章R语言数据分析
- 6.1数据处理基础函数
- 6.1.1数学函数
- 6.1.2统计函数
- 6.1.3概率函数
- 6.1.4数据分析实例
- 6.2描述性统计分析
- 6.2.1描述统计函数
- 6.2.2软件包的描述统计
- 6.3多元统计分析
- 6.3.1方差分析
- 6.3.2判别分析
- 6.3.3聚类分析
- 6.3.4主成分分析
- 6.3.5因子分析
- 6.3.6典型相关分析
- 第三部分专题实证研究
- 第7章金融时间序列建模专题
- 7.1金融时间序列
- 7.2ARMA模型
- 7.2.1ARMA模型简介
- 7.2.2ARMA模型定阶
- 7.2.3ARMA模型拟合
- 7.3GARCH模型
- 7.3.1GARCH模型简介
- 7.3.2GARCH模型拟合
- 第8章动态面板数据专题
- 8.1GMM估计
- 8.1.1系统GMM估计
- 8.1.2GMM估计原理
- 8.2动态面板数据模型的系统GMM估计
- 第9章数据挖掘专题
- 9.1关联规则
- 9.2降维分析
- 9.3社交网络分析
- 9.4贝叶斯分类法
- 9.4.1贝叶斯定理
- 9.4.2贝叶斯分类实例
- 9.5决策树
- 9.5.1决策树原理
- 9.5.2决策树分类实例
- 9.6人工神经网络
- 9.6.1三层前馈神经网络原理
- 9.6.2神经网络分类实例
- 9.7支持向量机
- 9.7.1支持向量机原理
- 9.7.2支持向量机分类实例
- 第10章信息可视化专题
- 10.1绘制地图
- 10.1.1世界地图
- 10.1.2中国地图
- 10.1.3公路线图
- 10.2可视化实例
- 10.2.1数据
- 10.2.2ggmap
- 第四部分RHadoop案例分析
- 第11章RHadoop的基本操作
- 11.1数据文件的读取
- 11.2包的加载
- 11.3基本函数
- 第12章RHadoop环境下案例分析
- 12.1回归分析
- 12.1.1回归分析原理
- 12.1.2线性回归分析案例
- 12.2Logistic分析
- 12.2.1Logistic分析原理
- 12.2.2Logistic分析案例
- 12.3判别分析
- 12.3.1线性判别分析原理
- 12.3.2线性判别分析案例
- 12.4聚类分析
- 12.4.1Kmeans聚类分析原理
- 12.4.2Kmeans聚类分析案例
- 12.5主成分分析
- 12.5.1主成分分析原理
- 12.5.2主成分分析案例
- 12.6因子分析
- 12.6.1因子分析原理
- 12.6.2因子分析案例
- 12.7商品推荐算法
- 12.7.1商品推荐算法原理
- 12.7.2商品推荐案例
- 12.8差异分析
- 12.8.1多维标度法的原理
- 12.8.2差异分析案例
- 附录一国泰安CSMAR数据下载
- 附录二深圳国泰安教育技术股份有限公司简介
- 参考文献