大数据不但代表数据的累积、储存与管理方法,更代表大数据的剖析。数据挖掘无可置疑地变成现如今大数据剖析的关键神器。R语言因完全的开放式对策已经位居数据挖掘专用工具之首列。这书以“R语言数据挖掘新手入门并不会太难”为开场,一览了数据挖掘的基础理论和运用轮廊,确立了R语言新手入门的必需专业知识和学习培训线路,并展现了数据挖掘的基本成效,致力于使阅读者迅速发展数据挖掘实践活动。事后紧紧围绕数据挖掘运用的四大关键层面,分配了数据预测篇:立足于数据预测不明,数据排序篇:发觉数据中的当然群聊,数据关系篇:发觉数据的本质相关性,离群数据探寻篇:发觉数据中的离群点。每章下各设多个章节目录,各章节目录从简单易懂且具象征性的实例难题下手,分析基础理论方式 原理,解读R语言完成,并得出实例的R语言数据挖掘编码和結果表述。这书內容遮盖之普遍,原理解读之通俗化,R语言完成流程之详细,在世界各国类似书藉中尚少见。
目录
- 第一篇 起步篇:R语言数据挖掘入门并不难
- 第1章 数据挖掘与R语言概述
- 【本章学习目标】
- 1.1 为什么要学习数据挖掘和R语言
- 1.2 什么是数据挖掘
- 1.3数据挖掘能给出什么
- 1.3.1数据挖掘结果有哪些呈现方式
- 1.3.2 数据挖掘结果有哪些基本特征
- 1.4 数据挖掘能解决什么问题
- 1.4.1 数据预测
- 1.4.2 发现数据的内在结构
- 1.4.3 发现关联性
- 1.4.4 模式诊断
- 1.5 数据挖掘解决问题的思路
- 1.6数据挖掘有哪些典型的商业应用
- 1.6.1 数据挖掘在客户细分中的应用
- 1.6.2 数据挖掘在客户流失分析中的应用
- 1.6.3 数据挖掘在营销响应分析中的应用
- 1.6.4 数据挖掘在交叉销售中的应用
- 1.6.5 数据挖掘在欺诈甄别中的应用
- 1.7 R语言入门需要知道什么
- 1.7.1 什么是R的包
- 1.7.2 如何获得 R
- 1.7.3 R如何起步
- 1.7.4 R的基本操作和其他
- 【本章附录】
- 第2章 R语言数据挖掘起步:R对象和数据组织
- 【本章学习目标】
- 2.1 什么是R的数据对象
- 2.1.1 R的数据对象有哪些类型
- 2.1.2 如何创建和访问R的数据对象
- 2.2 如何用R的向量组织数据
- 2.2.1 创建只包含一个元素的向量
- 2.2.2 创建包含多个元素的向量
- 2.2.3 访问向量中的元素
- 2.3 如何用R的矩阵组织数据
- 2.3.1 创建矩阵
- 2.3.2 访问矩阵中的元素
- 2.4 如何用R的数据框组织数据
- 2.4.1 创建数据框
- 2.4.2 访问数据框
- 2.5 如何用R的数组、列表组织数据
- 2.5.1 创建和访问数组
- 2.5.2 创建和访问列表
- 2.6 R数据对象的相互转换
- 2.6.1 不同存储类型之间的转换
- 2.6.2 不同结构类型之间的转换
- 2.7 如何将外部数据组织到R数据对象中
- 2.7.1 将文本数据组织到R对象中
- 2.7.2 将SPSS数据组织到R对象中
- 2.7.3 将数据库和Excel表数据组织到R对象中
- 2.7.4 将网页表格数据组织到R对象中
- 2.7.5 R有哪些自带的数据包
- 2.7.6 如何将R对象中的数据保存起来
- 2.8 R程序设计需哪些必备知识
- 2.8.1 R程序设计涉及哪些基本概念
- 2.8.2 R有哪些常用的系统函数
- 2.8.3 用户自定义函数提升编程水平
- 2.8.4 如何提高R程序处理的能力
- 2.9 R程序设计与数据整理综合应用
- 2.9.1 综合应用一:数据的基本处理
- 2.9.2 综合应用二:如何将汇总数据还原为原始数据
- 【本章附录】
- 第3章 R语言数据挖掘初体验:对数据的直观印象
- 【本章学习目标】
- 【案例与思考】
- 3.1 数据的直观印象
- 3.1.1 R的数据可视化平台是什么?
- 3.1.3 R的图形边界和布局
- 3.1.2 R的图形组成和图形参数
- 3.1.4 如何修改R的图形参数?
- 3.2如何获得单变量分布特征的直观印象
- 3.2.1核密度图:车险理赔次数的分布特点是什么?
- 3.2.2 小提琴图:不同车型车险理赔次数的分布有差异吗?
- 3.2.3克利夫兰点图:车险理赔次数存在异常吗?
- 3.3如何获得多变量联合分布的直观印象
- 3.3.1 曲面图和等高线图
- 3.3.2 二元核密度曲面图:投保人年龄和车险理赔次数的联合分布特点是什么?
- 3.3.3 雷达图:不同区域气候特点有差异吗?
- 3.4如何获得变量间相关性的直观印象
- 3.4.1 马赛克图:车型和车龄有相关性吗?
- 3.4.2 散点图:这些因素会影响空气湿度吗?
- 3.4.3 相关系数图:淘宝各行业商品成交指数有相关性吗?
- 3.5如何获得GIS数据的直观印象
- 3.5.1 绘制世界地图和美国地图
- 3.5.2 绘制中国行政区划地图
- 3.5.3 依据地图绘制热力图:不同省市的淘宝女装成交指数有差异吗?
- 3.7如何获得文本词频数据的直观印象:政府工作报告中有哪些高频词?
- 【本章附录】
- 第二篇 数据预测篇:立足数据预测未知
- 第4章 基于近邻的分类预测:与近邻有趋同的选择!
- 【本章学习目标】
- 【案例与思考】
- 4.1近邻分析: K-近邻法
- 4.1.1 K-近邻法中的距离
- 4.1.2 K-近邻法中的近邻个数
- 4.1.3 R的K-近邻法和模拟分析
- 4.1.4 K-近邻法应用:天猫成交顾客的分类预测
- 4.2 K-近邻法的适用性及特征选择
- 4.2.1 K-近邻法的适用性
- 4.2.2 特征选择:找到重要变量
- 4.3基于变量重要性的加权K-近邻法
- 4.3.1 基于变量重要性的加权K-近邻法的基本原理
- 4.3.2 变量重要性判断应用:天猫成交顾客预测中的重要变量
- 4.4基于观测相似性的加权K-近邻法
- 4.4.1 加权K-近邻法的权重设计
- 4.4.2 加权K-近邻法的距离和相似性变换
- 4.4.3 加权K-近邻法的R实现
- 4.4.4加权K-近邻法应用:天猫成交顾客的分类预测
- 【本章附录】
- 第5章 基于规则的分类和组合预测:给出易懂且稳健的预测!
- 【本章学习目标】
- 【案例与思考】
- 5.1决策树概述
- 5.1.1 什么是决策树?
- 5.1.2 决策树的几何意义是什么?
- 5.1.3 决策树的核心问题
- 5.2 分类回归树的生长过程
- 5.2.1 分类树的生长过程
- 5.2.2 回归树的生长过程
- 5.2.3损失矩阵对分类树的影响
- 5.3 分类回归树的剪枝
- 5.3.1 最小代价复杂度的测度
- 5.3.2 分类回归树后剪枝过程
- 5.3.3 分类回归树的交叉验证剪枝
- 5.4 分类回归树的R实现和应用
- 5.4.1 分类回归树的R实现
- 5.4.2 分类回归树的应用:提炼不同消费行为顾客的主要特征
- 5.5 建立分类回归树的组合预测模型:给出稳健的预测
- 5.5.1 袋装技术
- 5.5.2 袋装技术的R实现
- 5.5.3 袋装技术的应用:稳健定位目标客户
- 5.5.4 推进技术
- 5.5.5 推进技术的R实现
- 5.5.6 推进技术的应用:稳健定位目标客户
- 5.6 随机森林:具有随机性的组合预测
- 5.6.1 什么是随机森林?
- 5.6.2 随机森林的R实现
- 5.6.3 随机森林的应用:稳健定位目标客户
- 【本章附录】
- 第6章 基于神经网络的分类预测:给出高精确的预测!
- 【本章学习目标】
- 【案例与思考】
- 6.1 人工神经网络概述
- 6.1.1 人工神经网络和种类
- 6.1.2 节点:人工神经网络的核心处理器
- 6.1.3 建立人工神经网络的一般步骤
- 6.1.4感知机模型:确定连接权重的基本策略
- 6.2 B-P反向传播网络:最常见的人工神经网络
- 6.2.1 B-P反向传播网络的三大特点
- 6.2.2 B-P反向传播算法:确定连接权重
- 6.2.3 学习率:影响连接权重调整的重要因素
- 6.3 B-P反向传播网络的R实现和应用
- 6.3.1 neuralnet包中的neuralnet函数
- 6.3.2 neuralnet函数的应用:精准预测顾客的消费行为
- 6.3.3 利用ROC曲线确定概率分割值
- 6.3.4 nnet包中的nnet函数
- 【本章附录】
- 第7章 基于支持向量的分类预测:给出最大把握的预测!
- 【本章学习目标】
- 【案例与思考】
- 7.1 支持向量分类概述
- 7.1.1支持向量分类的基本思路:确保把握程度
- 7.1.2支持向量分类的三种情况
- 7.2理想条件下的分类:线性可分时的支持向量分类
- 7.2.1如何求解超平面
- 7.2.1如何利用超平面进行分类预测
- 7.3 一般条件下的分类:广义线性可分时的支持向量分类
- 7.3.1如何求解超平面
- 7.3.2 可调参数的意义:把握程度和精度的权衡
- 7.4 复杂条件下的分类:线性不可分时支持向量分类
- 7.4.1 线性不可分的一般解决途径和维灾难问题
- 7.4.2 支持向量分类克服维灾难的途径
- 7.5 多分类的支持向量分类:二分类的拓展
- 7.6 支持向量回归:解决数值预测问题
- 7.6.1 支持向量回归与一般线性回归:目标和策略
- 7.6.2 支持向量回归的基本思路
- 7.7 支持向量机的R实现及应用
- 7.7.1支持向量机的R实现
- 7.7.2 利用R模拟线性可分下的支持向量分类
- 7.7.3 利用R模拟线性不可分下的支持向量分类
- 7.7.4 利用R模拟多分类的支持向量分类
- 7.7.5 支持向量分类应用:天猫成交顾客的预测
- 【本章附录】
- 第三篇 数据分组篇:发现数据中的自然群组
- 第8章 常规聚类:直观的数据全方位自动分组
- 【本章学习目标】
- 【案例与思考】
- 8.1 聚类分析概述
- 8.1.1聚类分析目标:发现数据中的“自然小类”
- 8.1.2 有哪些主流的聚类算法?
- 8.2基于质心的聚类:K-Means聚类
- 8.2.1 K-Means聚类中的距离测度:体现全方位性
- 8.2.2 K-Means聚类过程:多次自动分组
- 8.2.3 K-Means聚类的R实现和模拟分析
- 8.2.4 K-Means聚类的应用:环境污染的区域划分
- 8.3 PAM聚类:改进的K- Means聚类
- 8.3.1 PAM聚类过程
- 8.3.2 PAM聚类的R实现和模拟分析
- 8.3基于联通性的聚类:层次聚类
- 8.3.1 层次聚类的基本过程:循序渐进的自动分组
- 8.3.2 层次聚类的R实现和应用:环境污染的区域划分
- 8.4基于统计分布的聚类:EM聚类
- 8.4.1 基于统计分布的聚类出发点:有限混合分布
- 8.4.2 EM聚类:如何估计类参数和聚类解
- 8.4.3 EM聚类的R实现和模拟分析
- 8.4.4 EM聚类的应用:环境污染的区域划分
- 【本章附录】
- 第9章 特色聚类:数据分组还可以这样做!
- 【本章学习目标】
- 【案例与思考】
- 9.1 BIRCH聚类概述
- 9.1.1 BRICH聚类有哪些特点?
- 9.1.2 聚类特征和聚类特征树:BIRCH聚类的重要策略
- 9.1.3 BIRCH的聚类过程:由存储空间决定的动态聚类
- 9.1.4 BRICH聚类的R实现
- 9.1.5 BRICH聚类应用:两期岗位培训的比较
- 9.2 SOM网络聚类概述
- 9.2.1 SOM网络聚类设计出发点
- 9.2.2 SOM网络的拓扑结构和聚类原理
- 9.2.3 SOM网络聚类的R实现
- 9.2.4 SOM网络聚类应用:手写邮政编码识别
- 9.2.5 拓展SOM网络:红酒品质预测
- 9.3基于密度的聚类模型:DBSCAN聚类
- 9.3.1 DBSCAN聚类原理:密度可达性是核心
- 9.3.2 DBSCAN聚类的R实现
- 9.3.3 DBSCAN聚类的模拟分析
- 【本章附录】
- 第四篇 数据关联篇:发现数据的内在关联性
- 第10章 发现数据中的关联特征:关联是推荐的依据!
- 【本章学习目标】
- 【案例与思考】
- 10.1 简单关联规则及其测度
- 10.1.1 什么是简单关联规则?
- 10.1.2 如何评价简单关联规则的有效性?
- 10.1.3如何评价简单关联规则的实用性?
- 10.2 Apriori算法:发现简单关联规则的高效算法
- 10.2.1 搜索频繁项集:Apriori算法的重中之重
- 10.2.2依频繁项集产生简单关联规则:水到渠成
- 10.2.3 Apriori算法的R实现和应用示例
- 10.2.4 简单关联的可视化R实现和应用示例
- 10.3 Eclat算法:更快速地发现频繁项集
- 10.3.1 Eclat算法原理:对等类是核心
- 10.3.2 Eclat算法的R实现和应用示例
- 10.4 简单关联分析应用:商品推荐
- 10.4.1 发现连带销售商品
- 10.4.2 顾客选择性倾向对比
- 10.5 序列关联分析及SPADE算法:发现数据中的时序关联性
- 10.5.1 序列关联中有哪些基本概念?
- 10.5.2 SPADE算法:发现序列关联规则的高效算法
- 10.5.3 序列关联分析的R实现及应用示例
- 10.6 序列关联分析应用:发现网民的浏览习惯
- 第11章 复杂网络分析初步:基于关系的研究!
- 【本章学习目标】
- 【案例与思考】
- 11.1 网络的定义表示及构建:复杂网络分析的第一步!
- 11.1.1 网络的图论定义及R实现
- 11.1.2 网络的矩阵表示方式及R实现
- 11.1.3 R的网络数据文件和建立网络对象
- 11.1.4 R的网络可视化
- 11.2 网络节点重要性的测度:谁是网络的“主导”?
- 11.2.1度和测地线距离
- 11.2.2点度中心度和接近中心度:节点“中心”作用的测度
- 11.2.3中间中心度:节点“枢纽”作用的测度
- 11.2.4节点重要性的其他方面:结构洞和关节点、特征向量中心度和PageRank得分
- 11.3 网络子群构成特征研究:找到网络中的“小团体”!
- 11.3.1二元关系和三元关系及R实现
- 11.3.2 派系和k-核及R实现
- 11.3.3 社区和组件及R实现
- 11.4 网络整体特征刻画:整体关系是这样的!
- 11.4.1 网络整体特征的测度
- 11.4.2 网络特征的各种分布和度量
- 11.5 主要网络类型及特点:多姿多彩的网络世界!
- 11.5.1 规则网络及特点
- 11.5.2 随机网络及特点
- 11.5.3 小世界网络及特点
- 11.5.4 无标度网络及特点
- 【本章附录】
- 第五篇 离群数据探索篇:发现数据中的离群点
- 第12章模式甄别:诊断异常数据!
- 【本章学习目标】
- 【案例与思考】
- 12.1 模式甄别方法和评价概述
- 12.1.1 模式甄别方法
- 12.1.2 模式甄别结果及评价:风险评分
- 12.2 模式甄别的无监督侦测方法及应用示例
- 12.2.1 依概率侦测模式及R应用示例
- 12.2.2 依距离侦测模式:DB方法及R应用示例
- 12.2.3 依密度侦测模式:LOF方法及R应用示例
- 12.3 模式甄别的有监督侦测方法及应用示例
- 12.3.1 朴素贝叶斯分类法及示例
- 12.3.2 Logistic回归及示例
- 12.3.3 非平衡数据集的SMOTE处理
- 12.4 模式甄别的半监督侦测方法及应用示例
- 12.4.1 半监督分类:自训练分类模型
- 12.4.2 自训练分类模型的R实现及应用示例
- 【本章附录】