内容介绍
《大数据技术丛书:MATLAB数据分析与挖掘实战》共16章,共三篇。基础篇(第1~5章),第1章的主要内容是数据挖掘概述;第2章对《大数据技术丛书:MATLAB数据分析与挖掘实战》所用到的数据挖掘建模工具MATALB进行了简明扼要的说明;第3章、第4章、第5章对数据挖掘的建模过程,包括数据探索、数据预处理及挖掘建模的常用算法与原理进行了介绍。实战篇(第6~15章),重点对数据挖掘技术在电力、航空、医疗、互联网、生产制造以及公共服务等行业的应用进行了分析。在案例结构组织上,《大数据技术丛书:MATLAB数据分析与挖掘实战》是按照先介绍案例背景与挖掘目标,再阐述分析方法与过程,最后完成模型构建的顺序进行的,在建模过程关键环节,穿插程序实现代码。最后通过上机实践,加深数据挖掘技术在案例应用中的理解。提高篇(第16章),介绍了基于MATLAB二次开发的数据挖掘应用软件——TipDM数据挖掘建模工具,并以此工具为例详细介绍了基于MATLAB接口完成数据挖掘二次开发的各个步骤,使读者体验到通过MATLAB实现数据挖掘二次开发的强大魅力。
目录
- 基础篇
- 第1章 数据挖掘基础
- 1.1 某知名连锁餐饮企业的困惑
- 1.2 从餐饮服务到数据挖掘
- 1.3 数据挖掘的基本任务
- 1.4 数据挖掘的建模过程
- 1.4.1 定义挖掘目标
- 1.4.2 数据取样
- 1.4.3 数据探索
- 1.4.4 数据预处理
- 1.4.5 挖掘建模
- 1.4.6 模型评价
- 1.5 常用的数据挖掘建模工具
- 1.6 小结
- 第2章 MATLAB数据分析工具箱简介
- 2.1 MATLAB的安装
- 2.2 MATLAB使用入门
- 2.2.1 MATLAB R2014a操作界面
- 2.2.2 MATLAB常用操作
- 2.3 MATLAB数据分析工具箱
- 2.4 配套附件使用设置
- 2.5 小结
- 第3章 数据探索
- 3.1 数据质量分析
- 3.1.1 缺失值分析
- 3.1.2 异常值分析
- 3.1.3 一致性分析
- 3.2 数据特征分析
- 3.2.1 分布分析
- 3.2.2 对比分析
- 3.2.3 统计量分析
- 3.2.4 周期性分析
- 3.2.5 贡献度分析
- 3.2.6 相关性分析
- 3.3 MATLAB主要数据的探索函数
- 3.3.1 统计特征函数
- 3.3.2 统计作图函数
- 3.4 小结
- 第4章 数据预处理
- 4.1 数据清洗
- 4.1.1 缺失值处理
- 4.1.2 异常值处理
- 4.2 数据集成
- 4.2.1 实体识别
- 4.2.2 冗余属性识别
- 4.3 数据变换
- 4.3.1 简单的函数变换
- 4.3.2 规范化
- 4.3.3 连续属性离散化
- 4.3.4 属性构造
- 4.3.5 小波变换
- 4.4 数据规约
- 4.4.1 属性规约
- 4.4.2 数值规约
- 4.5 MATLAB主要的数据预处理函数
- 4.6 小结
- 第5章 挖掘建模
- 5.1 分类与预测
- 5.1.1 实现过程
- 5.1.2 常用的分类与预测算法
- 5.1.3 回归分析
- 5.1.4 决策树
- 5.1.5 人工神经网络
- 5.1.6 分类与预测算法评价
- 5.1.7 MATLAB主要分类与预测算法函数
- 5.2 聚类分析
- 5.2.1 常用的聚类分析算法
- 5.2.2 K-Means聚类算法
- 5.2.3 聚类分析算法评价
- 5.2.4 MATLAB主要聚类分析算法函数
- 5.3 关联规则
- 5.3.1 常用的关联规则算法
- 5.3.2 Apriori算法
- 5.4 时序模式
- 5.4.1 时间序列算法
- 5.4.2 时间序列的预处理
- 5.4.3 平稳时间序列分析
- 5.4.4 非平稳时间序列分析
- 5.4.5 MATLAB主要时序模式算法函数
- 5.5 离群点检测
- 5.5.1 离群点的检测方法
- 5.5.2 基于统计模型的离群点的检测方法
- 5.5.3 基于聚类的离群点的检测方法
- 5.6 小结
- 实战篇
- 第6章 电力企业的窃漏电用户自动识别
- 6.1 背景与挖掘目标
- 6.2 分析方法与过程
- 6.2.1 数据抽取
- 6.2.2 数据探索分析
- 6.2.3 数据预处理
- 6.2.4 构建专家样本
- 6.2.5 构建模型
- 6.3 上机实验
- 6.4 拓展思考
- 6.5 小结
- 第7章 航空公司的客户价值分析
- 7.1 背景与挖掘目标
- 7.2 分析方法与过程
- 7.2.1 数据抽取
- 7.2.2 数据探索分析
- 7.2.3 数据预处理
- 7.2.4 模型构建
- 7.3 上机实验
- 7.4 拓展思考
- 7.5 小结
- 第8章 中医证型关联规则挖掘
- 8.1 背景与挖掘目标
- 8.2 分析方法与过程
- 8.2.1 数据获取
- 8.2.2 数据预处理
- 8.2.3 模型构建
- 8.3 上机实验
- 8.4 拓展思考
- 8.5 小结
- 第9章 基于水色图像的水质评价
- 9.1 背景与挖掘目标
- 9.2 分析方法与过程
- 9.2.1 数据预处理
- 9.2.2 构建模型
- 9.2.3 水质评价
- 9.3 上机实验
- 9.4 拓展思考
- 9.5 小结
- 第10章 基于关联规则的网站智能推荐服务
- 10.1 背景与挖掘目标
- 10.2 分析方法与过程
- 10.2.1 数据抽取
- 10.2.2 数据预处理
- 10.2.3 构建模型
- 10.3 上机实验
- 10.4 拓展思考
- 10.5 小结
- 第11章 应用系统负载分析与磁盘容量预测
- 11.1 背景与挖掘目标
- 11.2 分析方法与过程
- 11.2.1 数据抽取
- 11.2.2 数据探索分析
- 11.2.3 数据预处理
- 11.2.4 构建模型
- 11.3 上机实验
- 11.4 拓展思考
- 11.5 小结
- 第12章 面向网络舆情的关联度分析
- 12.1 背景与挖掘目标
- 12.2 分析方法与过程
- 12.2.1 数据抽取
- 12.2.2 数据预处理
- 12.2.3 构建模型
- 12.3 上机实验
- 12.4 拓展思考
- 12.5 小结
- 第13章 家用电器用户行为分析及事件识别
- 13.1 背景与挖掘目标
- 13.2 分析方法与过程
- 13.2.1 数据抽取
- 13.2.2 数据探索分析
- 13.2.3 数据预处理
- 13.2.4 模型构建
- 13.2.5 模型检验
- 13.3 上机实验
- 13.4 拓展思考
- 13.5 小结
- 第14章 基于基站定位数据的商圈分析
- 14.1 背景与挖掘目标
- 14.2 分析方法与过程
- 14.2.1 数据抽取
- 14.2.2 数据探索分析
- 14.2.3 数据预处理
- 14.2.4 构建模型
- 14.3 上机实验
- 14.4 拓展思考
- 14.5 小结
- 第15章 气象与输电线路的缺陷关联分析
- 15.1 背景与挖掘目标
- 15.2 分析方法与过程
- 15.2.1 数据抽取
- 15.2.2 数据探索分析
- 15.2.3 数据预处理
- 15.2.4 模型构建
- 15.3 上机实验
- 15.4 拓展思考
- 15.5 小结
- 提高篇
- 第16章 基于MATLAB的数据挖掘二次开发
- 16.1 混合编程应用体验——TipDM数据挖掘平台
- 16.1.1 建设目标
- 16.1.2 模型构建
- 16.1.3 模型发布
- 16.1.4 模型调用
- 16.1.5 模型更新
- 16.2 二次开发过程
- 16.2.1 接口算法编程
- 16.2.2 用Library Compiler创建Java组件
- 16.2.3 安装MATLAB运行时环境
- 16.2.4 JDK环境及设置
- 16.2.5 接口函数的调用
- 16.3 小结
- 参考文献