大数据挖掘:系统方法与实例分析是大数据挖掘行业的扛鼎之作,由全世界科学计算行业的管理者MathWorks(MATLAB企业)官方网的杰出大数据挖掘权威专家编写,MathWorks官方网及多名权威专家联手强烈推荐。
它从技术性、方法、实例和*佳实践活动4个层面对怎样系统、深层次把握大数据挖掘出示了详细的解读。
技术性:不但解读了大数据挖掘的基本原理、全过程、专用工具,还解读了互联网大数据的提前准备、解决、与探寻;
方法:既深层次地解读了关联规则方法、重归方法、归类方法、聚类分析法方法、分折方法、确诊方法等6类别大数据挖掘行为主体方法,又重中之重解读了时间序列方法和智能化提升方法二种大数据挖掘中常见的方法;
实例:详尽地重现了来源于金融机构、证劵、机械设备、矿业、生物科学和人文科学等6大行业的成功案例,不但有实例的保持全过程,并且也有实例基本原理和预备期专业知识的的解读;
最先小结了大数据挖掘中明确发掘、运用技术性及其怎样均衡的造型艺术,随后小结了大数据挖掘的项目风险管理和团队协作的造型艺术。
目录
- 第一篇基础篇
- 第1章绪论
- 1.1 大数据与数据挖掘
- 1.1.1 何为大数据
- 1.1.2 大数据的价值
- 1.1.3 大数据与数据挖掘的关系
- 1.2 数据挖掘的概念和原理
- 1.2.1 什么是数据挖掘
- 1.2.2 数据挖掘的原理
- 1.3 数据挖掘的内容
- 1.3.1 关联
- 1.3.2 回归
- 1.3.3 分类
- 1.3.4 聚类
- 1.3.5 预测
- 1.3.6 诊断
- 1.4 数据挖掘的应用领域
- 1.4.1 零售业
- 1.4.2 银行业
- 1.4.3 证券业
- 1.4.4 能源业
- 1.4.5 医疗行业
- 1.4.6 通信行业
- 1.4.7 汽车行业
- 1.4.8 公共事业
- 1.5 大数据挖掘的要点
- 1.6 小结
- 参考文献
- 第2章数据挖掘的过程及工具
- 2.1 数据挖掘过程概述
- 2.2 挖掘目标的定义
- 2.3 数据的准备
- 2.4 数据的探索
- 2.5 模型的建立
- 2.6 模型的评估
- 2.7 模型的部署
- 2.8 工具的比较与选择
- 2.9 小结
- 参考文献
- 第3章 MATLAB数据挖掘快速入门
- 3.1 MATLAB快速入门
- 3.1.1 MATLAB概要
- 3.1.2 MATLAB的功能
- 3.1.3 快速入门案例
- 3.1.4 入门后的提高
- 3.2 MATLAB常用技巧
- 3.2.1 常用标点的功能
- 3.2.2 常用操作指令
- 3.2.3 指令编辑操作键
- 3.2.4 MATLAB数据类型
- 3.3 MATLAB开发模式
- 3.3.1 命令行模式
- 3.3.2 脚本模式
- 3.3.3 面向对象模式
- 3.3.4 三种模式的配合
- 3.4 MATLAB数据挖掘引例
- 3.5 MATLAB集成数据挖掘工具
- 3.5.1 分类学习机简介
- 3.5.2 交互探索算法的方式
- 3.5.3 MATLAB分类学习机应用实例
- 3.6 小结
- 第二篇技术篇
- 第4章数据的准备
- 4.1 数据的收集
- 4.1.1 认识数据
- 4.1.2 数据挖掘的数据源
- 4.1.3 数据抽样
- 4.1.4 金融行业的数据源
- 4.1.5 从雅虎获取交易数据
- 4.1.6 从大智慧获取财务数据
- 4.1.7 从Wind获取高质量数据
- 4.2 数据质量分析
- 4.2.1 数据质量分析的必要性
- 4.2.2 数据质量分析的目地
- 4.2.3 数据质量分析的内容
- 4.2.4 数据质量分析方法
- 4.2.5 数据质量分析的结果及应用
- 4.3 数据预处理
- 4.3.1 为什么需要数据预处理
- 4.3.2 数据预处理的方法
- 4.3.3 数据清洗
- 4.3.4 数据集成
- 4.3.5 数据归约
- 4.3.6 数据变换
- 4.4 小结
- 参考文献
- 第5章数据的探索
- 5.1 衍生变量
- 5.1.1 衍生变量的定义
- 5.1.2 变量衍生的原则和方法
- 5.1.3 常用的股票衍生变量
- 5.1.4 评价型衍生变量
- 5.1.5 衍生变量数据收集与集成
- 5.2 数据的统计
- 5.2.1 基本描述性统计
- 5.2.2 分布描述性统计
- 5.3 数据可视化
- 5.3.1 基本可视化方法
- 5.3.2 数据分布形状可视化
- 5.3.3 数据关联情况可视化
- 5.3.4 数据分组可视化
- 5.4 样本选择
- 5.4.1 样本选择的方法
- 5.4.2 样本选择应用实例
- 5.5 数据降维
- 5.5.1 主成分分析(PCA)基本原理
- 5.5.2 PCA应用案例:企业综合实力排序
- 5.5.3 相关系数降维
- 5.6 小结
- 参考文献
- 第6章关联规则方法
- 6.1 关联规则概要
- 6.1.1 关联规则提出背景
- 6.1.2 关联规则的基本概念
- 6.1.3 关联规则的分类
- 6.1.4 关联规则挖掘常用算法
- 6.2 Apriori算法
- 6.2.1 Apriori算法基本思想
- 6.2.2 Apriori算法步骤
- 6.2.3 Apriori算法实例
- 6.2.4 Apriori算法程序实现
- 6.2.5 算法的优缺点
- 6.3 FP-Growth算法
- 6.3.1 FP-Growt算法步骤
- 6.3.2 FP-Growt算法实例
- 6.3.3 FP-Growt算法优缺点
- 6.4 应用实例:行业关联选股法
- 6.5 小结
- 参考文献
- 第7章数据回归方法
- 7.1 一元回归
- 7.1.1 一元线性回归
- 7.1.2 一元非线性回归
- 7.1.3 一元多项式回归
- 7.2 多元回归
- 7.2.1 多元线性回归
- 7.2.2 多元多项式回归
- 7.3 逐步归回
- 7.3.1 逐步回归基本思想
- 7.3.2 逐步回归步骤
- 7.3.3 逐步回归的MATLAB方法
- 7.4 Logistic回归
- 7.4.1 Logistic模型
- 7.4.2 Logistic回归实例
- 7.5 应用实例:多因子选股模型的实现
- 7.5.1 多因子模型基本思想
- 7.5.2 多因子模型的实现
- 7.6 小结
- 参考文献
- 第8章分类方法
- 8.1 分类方法概要
- 8.1.1 分类的概念
- 8.1.2 分类的原理
- 8.1.3 常用的分类方法
- 8.2 K-近邻(KNN)
- 8.2.1 K-近邻原理
- 8.2.2 K-近邻实例
- 8.2.3 K-近邻特点
- 8.3 贝叶斯分类
- 8.3.1 贝叶斯分类原理
- 8.3.2 朴素贝叶斯分类原理
- 8.3.3 朴素贝叶斯分类实例
- 8.3.4 朴素贝叶斯特点
- 8.4 神经网络
- 8.4.1 神经网络原理
- 8.4.2 神经网络实例
- 8.4.3 神经网络特点
- 8.5 逻辑斯蒂(Logistic)
- 8.5.1 逻辑斯蒂原理
- 8.5.2 逻辑斯蒂实例
- 8.5.3 逻辑斯蒂特点
- 8.6 判别分析
- 8.6.1 判别分析原理
- 8.6.2 判别分析实例
- 8.6.3 判别分析特点
- 8.7 支持向量机(SVM)
- 8.7.1 SVM基本思想
- 8.7.2 理论基础
- 8.7.3 支持向量机实例
- 8.7.4 支持向量机特点
- 8.8 决策树
- 8.8.1 决策树的基本概念
- 8.8.2 决策树的构建步骤
- 8.8.3决策树实例
- 8.8.4 决策树特点
- 8.9 分类的评判
- 8.9.1 正确率
- 8.9.2 ROC曲线
- 8.10 应用实例:分类选股法
- 8.10.1 案例背景
- 8.10.2 实现方法
- 8.11 延伸阅读:其他分类方法
- 8.12 小结
- 参考文献
- 第9章聚类方法
- 9.1 聚类方法概要
- 9.1.1 聚类的概念
- 9.1.2 类的度量方法
- 9.1.3 聚类方法的应用场景
- 9.1.4 聚类方法分类
- 9.2 K-means方法
- 9.2.1 K-means原理和步骤
- 9.2.2 K-means实例1:自主编程
- 9.2.3 K-means实例2:集成函数
- 9.2.4 K-means特点
- 9.3 层次聚类
- 9.3.1 层次聚类原理和步骤
- 9.3.2 层次聚类实例
- 9.3.3 层次聚特点
- 9.4 神经网络聚类
- 9.4.1 神经网络聚类原理和步骤
- 9.4.2 神经网络聚类实例
- 9.4.3 神经网络聚类特点
- 9.5 模糊C-均值(FCM)方法
- 9.5.1 FCM原理和步骤
- 8.5.2 FCM应用实例
- 9.5.3 FCM算法特点
- 9.6 高斯混合聚类方法
- 9.6.1 高斯混合聚类原理和步骤
- 9.6.2 高斯聚类实例
- 9.6.3 高斯聚类特点
- 9.7 类别数的确定方法
- 9.7.1 原理
- 9.7.2 实例
- 9.8 应用实例:股票聚类分池
- 9.8.1 聚类目标和数据描述
- 9.8.2 实现过程
- 9.8.3 结果及分析
- 9.9 延伸阅读
- 9.9.1 目前聚类分析研究的主要内容
- 9.9.2 SOM智能聚类算法
- 9.10 小结
- 参考文献
- 第10章预测方法
- 10.1 预测方法概要
- 10.1.1 预测的概念
- 10.1.2 预测的基本原理
- 10.1.3 预测的准确度评价及影响因素
- 10.1.4 常用的预测方法
- 10.2 灰色预测
- 10.2.1 灰色预测原理
- 10.2.2 灰色预测的实例
- 10.3 马尔科夫预测
- 10.3.1 马尔科夫预测原理
- 10.3.2 马尔科夫过程的特性
- 10.3.3 马尔科夫预测实例
- 10.4 应用实例:大盘走势预测
- 10.4.1 数据的选取及模型的建立
- 10.4.2 预测过程
- 10.4.3 预测结果与分析
- 10.5 小结
- 参考文献
- 第11章诊断方法
- 11.1 离群点诊断概要
- 11.1.1 离群点诊断的定义
- 11.1.2 离群点诊断的作用
- 11.1.3 离群点诊断方法分类
- 11.2 基于统计的离群点诊断
- 11.2.1 理论基础
- 11.2.2 应用实例
- 11.2.3 优点与缺点
- 11.3 基于距离的离群点诊断
- 11.3.1 理论基础
- 11.3.2 应用实例
- 11.3.3 优点与缺点
- 11.4 基于密度的离群点挖掘
- 11.4.1 理论基础
- 11.4.2 应用实例
- 11.4.3 优点与缺点
- 11.5 基于聚类的离群点挖掘
- 11.5.1 理论基础
- 11.5.2 应用实例
- 11.5.3 优点与缺点
- 11.6 应用实例:离群点诊断股票买卖择时
- 11.7 延伸阅读:新兴的离群点挖掘方法
- 11.7.1 基于关联的离群点挖掘
- 11.7.2 基于粗糙集的离群点挖掘
- 11.7.3 基于人工神经网络的离群点挖掘
- 11.8 小结
- 参考文献
- 第12章时间序列方法
- 12.1 时间序列基本概念
- 12.1.1 时间序列的定义
- 12.1.2 时间序列的组成因素
- 12.1.3 时间序列的分类
- 12.1.4 时间序列分析方法
- 12.2 平稳时间序列分析方法
- 12.2.1 移动平均法
- 12.2.2 指数平滑法
- 12.3 季节指数预测法
- 12.3.1 季节性水平模型
- 12.3.2 季节性趋势模型
- 12.4 时间序列模型
- 12.4.1 ARMA模型
- 12.4.2 ARIMA模型
- 12.4.3 ARCH模型
- 12.4.4 GARCH模型
- 12.5 应用实例:基于时间序列的股票预测
- 12.6 小结
- 参考文献
- 第13章智能优化方法
- 13.1 智能优化方法概要
- 13.1.1 智能优化方法的概念
- 13.1.2 常用的智能优化方法
- 13.2 遗传算法
- 13.2.1 遗传算法的原理
- 13.2.2 遗传算法的步骤
- 13.2.3 遗传算法实例
- 13.2.4 遗传算法的特点
- 13.3 模拟退火算法
- 13.3.1 模拟退火算法的原理
- 13.3.2 模拟退火算法步骤
- 13.3.3 模拟退火算法实例
- 13.3.4 模拟退火算法的特点
- 13.4 延伸阅读:其它智能方法
- 13.4.1 粒子群算法
- 13.4.2 蚁群算法
- 13.5 小结
- 参考文献
- 第三篇项目篇
- 第14章数据挖掘在银行信用评分中的应用
- 14.1 概述
- 14.1.1 信用评分的概念
- 14.1.2 信用评分的意义
- 14.1.3 个人信用评分的影响因素
- 14.1.4 信用评分的方法
- 14.2 DM法信用评分实施过程
- 14.2.1 数据的准备
- 14.2.2 数据预处理
- 14.2.3 logistics模型
- 14.2.4 神经网络模型
- 14.3 AHP信用评分方法
- 14.3.1 AHP法简介
- 14.3.2 AHP法信用评分实例
- 14.4 延伸阅读:企业信用评级
- 14.5 小结
- 第15章数据挖掘在量化选股中的应用
- 15.1 量化选股概述
- 15.1.1 量化选股定义
- 15.1.2 量化选股实现过程
- 15.1.3 量化选股的分类
- 15.2 数据的处理及探索
- 15.2.1 获取股票日交易数据
- 15.2.2 计算指标
- 15.2.3 数据标准化
- 15.2.4 变量筛选
- 15.3 模型的建立及评估
- 15.3.1 股票预测的基本思想
- 15.3.2 模型的训练及评价
- 15.4 组合投资的优化
- 15.4.1 组合投资的理论基础
- 15.4.2 组合投资的实现
- 15.5 量化选股的实施
- 15.6 小结
- 参考文献
- 第16章数据挖掘在工业故障诊断中的应用
- 16.1 故障诊断概述
- 16.1.1 故障诊断的概念
- 16.1.2 故障诊断的方法
- 16.1.3 数据挖掘技术的故障诊断原理
- 16.2 DM设备故障诊断实例
- 16.2.1 加载数据
- 16.2.2 探索数据
- 16.2.3 设置训练样本的测试样本
- 16.2.4 决策树方法训练模型
- 16.2.5 集成决策树方法训练模型
- 16.3 小结
- 第17章数据挖掘技术在矿业工程中的应用
- 17.1 概述
- 17.1.1 矿业工程的内容
- 17.1.2 矿业工程的数据及特征
- 17.1.3 数据挖掘技术在矿业工程中的作用
- 17.2 矿业工程数据挖掘实例:提纯预测
- 17.2.1 数据的集成
- 17.2.2 采用插值方式处理缺失值
- 17.2.3 设置建模数据及验证方式
- 17.2.4 多元线性回归模型
- 17.3 小结
- 参考文献
- 第18章数据挖掘技术在生命科学中的应用
- 18.1 概述
- 18.1.1 生命科学的研究内容
- 18.1.2 生命科学中大数据的特征
- 18.1.3 数据挖掘技术在生命科学中的作用
- 18.2 生命科学数据挖掘实例:基因表达模式挖掘
- 18.2.1 加载数据
- 18.2.2 数据初探
- 18.2.3 数据清洗
- 18.2.4 层次聚类
- 18.2.5 K-means聚类
- 18.3 小结
- 参考文献
- 第19章数据挖掘在社会科学研究中的应用
- 19.1 概述
- 19.1.1 社会学研究的内容
- 19.1.2 社会学研究的方法
- 19.1.3 数据挖掘在社会科学研究中的应用情况
- 19.2 社会科学挖掘实例:人类行为研究
- 19.2.1 加载数据
- 19.2.2 数据可视化
- 19.2.3 神经网络
- 19.2.4 混淆矩阵评价分类器
- 19.2.5 ROC法评价分类器
- 19.2.6 变量优选
- 19.2.7 用优选的变量训练网络
- 19.3 小结
- 第四篇理念篇
- 第20章数据挖掘的艺术
- 20.1 确定数据挖掘目标的艺术
- 20.1.1 数据挖掘中的商业意识
- 20.1.2 商业意识到数据挖掘目标
- 20.1.3 商业意识的培养
- 20.2 应用技术的艺术
- 20.2.1 技术服务于业务的艺术
- 20.2.2 算法选择的艺术
- 20.2.3 与机器配合的艺术
- 20.3 数据挖掘中平衡的艺术
- 20.3.1 客观与主观的平衡
- 20.3.2 数据量的平衡
- 20.4 理性对待大数据时代
- 20.4.1 发展大数据应避免的误区
- 20.4.2 正确认识大数据的价值
- 20.4.3 正面大数据应用面临的挑战
- 20.5 小结
- 参考文献
- 第21章数据挖掘的项目管理和团队管理
- 21.1 数据挖掘项目实施之道
- 21.1.1 确定可行的目标
- 21.1.2 遵守数据挖掘流程
- 21.1.3 项目的质量控制
- 21.1.4 项目效率
- 21.1.5 成本控制
- 21.1.6 数据挖掘过程改进
- 21.2 数据挖掘团队的组建
- 21.2.1 数据挖掘项目团队的构成
- 21.2.2 团队负责人
- 21.3 数据挖掘团队的管理
- 21.3.1 团队管理的目标与策略
- 21.3.2 规范化的管理
- 21.4 优秀数据挖掘人才的修炼
- 21.4.1 专业知识与技术
- 21.4.2 快速获取知识的技能
- 21.4.3 提高表达能力
- 21.4.4 提高管理能力
- 21.4.5 培养对数据挖掘的热情
- 21.5 小结