10余名大数据挖掘行业杰出权威专家和科技人员,10多年大数据分析资询与执行工作经验结晶体。从大数据挖掘的运用来看,以电力工程、航空公司、诊疗、互联网技术、生产加工及其公共文化服务等制造行业真正实例主导线,从入门到精通详细介绍Python大数据挖掘模型全过程,理论性极强。
这书共15章,分2个一部分:基本篇、实战篇。基本篇详细介绍了大数据挖掘的基本概念,实战篇详细介绍了一个一个真正实例,根据对实例从入门到精通的分析,使用户在不经意间中根据实例实践活动得到数据挖掘项目工作经验,另外迅速理解看起来晦涩难懂的大数据挖掘基础理论。用户在阅读文章全过程中,应灵活运用随书配套设施的实例模型统计数据,依靠有关的大数据挖掘建模工具,根据上机操作试验,以迅速了解有关专业知识与基础理论。
基本篇(第1~5章),第1章的主题思想是大数据挖掘简述;第2章对这书常用到的大数据挖掘建模工具Python語言开展了言简意赅的表明;第3章、第4章、第5章对大数据挖掘的模型全过程,包含统计数据探寻、数据预处理及发掘模型的常见优化算法与基本原理开展了详细介绍。
实战篇(第6~15章),重中之重对数据挖掘算法在电力工程、航空公司、诊疗、互联网技术、生产加工及其公共文化服务等制造行业的运用开展了剖析。在实例构造机构上,这书是依照先详细介绍实例背景图与发掘总体目标,再论述统计分析方法与全过程,*后进行实体模型搭建的次序开展的,在模型全过程的重要环节,交叉程序实现编码。*后根据上机操作实践活动,加重用户对数据挖掘算法在实例运用中的了解。
目录
- 前 言
- 基 础 篇
- 第1章 数据挖掘基础2
- 1.1 某知名连锁餐饮企业的困惑2
- 1.2 从餐饮服务到数据挖掘3
- 1.3 数据挖掘的基本任务4
- 1.4 数据挖掘建模过程4
- 1.4.1 定义挖掘目标4
- 1.4.2 数据取样5
- 1.4.3 数据探索6
- 1.4.4 数据预处理7
- 1.4.5 挖掘建模7
- 1.4.6 模型评价7
- 1.5 常用的数据挖掘建模工具7
- 1.6 小结9
- 第2章 Python数据分析简介10
- 2.1 搭建Python开发平台12
- 2.1.1 所要考虑的问题12
- 2.1.2 基础平台的搭建12
- 2.2 Python使用入门13
- 2.2.1 运行方式14
- 2.2.2 基本命令15
- 2.2.3 数据结构17
- 2.2.4 库的导入与添加20
- 2.3 Python数据分析工具22
- 2.3.1 Numpy23
- 2.3.2 Scipy24
- 2.3.3 Matplotlib24
- 2.3.4 Pandas26
- 2.3.5 StatsModels27
- 2.3.6 Scikit-Learn28
- 2.3.7 Keras29
- 2.3.8 Gensim30
- 2.4 配套资源使用设置31
- 2.5 小结32
- 第3章 数据探索33
- 3.1 数据质量分析33
- 3.1.1 缺失值分析34
- 3.1.2 异常值分析34
- 3.1.3 一致性分析37
- 3.2 数据特征分析37
- 3.2.1 分布分析37
- 3.2.2 对比分析40
- 3.2.3 统计量分析41
- 3.2.4 周期性分析44
- 3.2.5 贡献度分析45
- 3.2.6 相关性分析47
- 3.3 Python主要数据探索函数50
- 3.3.1 基本统计特征函数50
- 3.3.2 拓展统计特征函数53
- 3.3.3 统计作图函数54
- 3.4 小结59
- 第4章 数据预处理60
- 4.1 数据清洗60
- 4.1.1 缺失值处理60
- 4.1.2 异常值处理64
- 4.2 数据集成64
- 4.2.1 实体识别64
- 4.2.2 冗余属性识别65
- 4.3 数据变换65
- 4.3.1 简单函数变换65
- 4.3.2 规范化66
- 4.3.3 连续属性离散化68
- 4.3.4 属性构造70
- 4.3.5 小波变换71
- 4.4 数据规约74
- 4.4.1 属性规约74
- 4.4.2 数值规约77
- 4.5 Python主要数据预处理函数80
- 4.6 小结81
- 第5章 挖掘建模83
- 5.1 分类与预测83
- 5.1.1 实现过程83
- 5.1.2 常用的分类与预测算法84
- 5.1.3 回归分析85
- 5.1.4 决策树89
- 5.1.5 人工神经网络95
- 5.1.6 分类与预测算法评价100
- 5.1.7 Python分类预测模型特点103
- 5.2 聚类分析104
- 5.2.1 常用聚类分析算法104
- 5.2.2 K-Means聚类算法105
- 5.2.3 聚类分析算法评价111
- 5.2.4 Python主要聚类分析算法111
- 5.3 关联规则113
- 5.3.1 常用关联规则算法114
- 5.3.2 Apriori算法114
- 5.4 时序模式119
- 5.4.1 时间序列算法120
- 5.4.2 时间序列的预处理120
- 5.4.3 平稳时间序列分析122
- 5.4.4 非平稳时间序列分析124
- 5.4.5 Python主要时序模式算法132
- 5.5 离群点检测134
- 5.5.1 离群点检测方法135
- 5.5.2 基于模型的离群点检测方法136
- 5.5.3 基于聚类的离群点检测方法138
- 5.6 小结141
- 实 战 篇
- 第6章 电力窃漏电用户自动识别144
- 6.1 背景与挖掘目标144
- 6.2 分析方法与过程147
- 6.2.1 数据抽取148
- 6.2.2 数据探索分析148
- 6.2.3 数据预处理151
- 6.2.4 构建专家样本156
- 6.2.5 模型构建157
- 6.3 上机实验161
- 6.4 拓展思考162
- 6.5 小结163
- 第7章 航空公司客户价值分析164
- 7.1 背景与挖掘目标164
- 7.2 分析方法与过程166
- 7.2.1 数据抽取168
- 7.2.2 数据探索分析168
- 7.2.3 数据预处理169
- 7.2.4 模型构建173
- 7.3 上机实验177
- 7.4 拓展思考178
- 7.5 小结179
- 第8章 中医证型关联规则挖掘180
- 8.1 背景与挖掘目标180
- 8.2 分析方法与过程181
- 8.2.1 数据获取183
- 8.2.2 数据预处理186
- 8.2.3 模型构建190
- 8.3 上机实验193
- 8.4 拓展思考194
- 8.5 小结194
- 第9章 基于水色图像的水质评价195
- 9.1 背景与挖掘目标195
- 9.2 分析方法与过程195
- 9.2.1 数据预处理197
- 9.2.2 模型构建199
- 9.2.3 水质评价201
- 9.3 上机实验202
- 9.4 拓展思考202
- 9.5 小结203
- 第10章 家用电器用户行为分析与事件识别204
- 10.1 背景与挖掘目标204
- 10.2 分析方法与过程205
- 10.2.1 数据抽取206
- 10.2.2 数据探索分析207
- 10.2.3 数据预处理207
- 10.2.4 模型构建217
- 10.2.5 模型检验219
- 10.3 上机实验220
- 10.4 拓展思考221
- 10.5 小结222
- 第11章 应用系统负载分析与磁盘容量预测223
- 11.1 背景与挖掘目标223
- 11.2 分析方法与过程225
- 11.2.1 数据抽取226
- 11.2.2 数据探索分析226
- 11.2.3 数据预处理227
- 11.2.4 模型构建229
- 11.3 上机实验235
- 11.4 拓展思考236
- 11.5 小结237
- 第12章 电子商务网站用户行为分析及服务推荐238
- 12.1 背景与挖掘目标238
- 12.2 分析方法与过程240
- 12.2.1 数据抽取242
- 12.2.2 数据探索分析244
- 12.2.3 数据预处理251
- 12.2.4 模型构建256
- 12.3 上机实验266
- 12.4 拓展思考267
- 12.5 小结269
- 第13章 财政收入影响因素分析及预测模型270
- 13.1 背景与挖掘目标270
- 13.2 分析方法与过程272
- 13.2.1 灰色预测与神经网络的组合模型273
- 13.2.2 数据探索分析274
- 13.2.3 模型构建277
- 13.3 上机实验294
- 13.4 拓展思考295
- 13.5 小结296
- 第14章 基于基站定位数据的商圈分析297
- 14.1 背景与挖掘目标297
- 14.2 分析方法与过程299
- 14.2.1 数据抽取299
- 14.2.2 数据探索分析299
- 14.2.3 数据预处理301
- 14.2.4 模型构建304
- 14.3 上机实验308
- 14.4 拓展思考309
- 14.5 小结309
- 第15章 电商产品评论数据情感分析310
- 15.1 背景与挖掘目标310
- 15.2 分析方法与过程310
- 15.2.1 评论数据采集311
- 15.2.2 评论预处理314
- 15.2.3 文本评论分词320
- 15.2.4 模型构建320
- 15.3 上机实验333
- 15.4 拓展思考334
- 15.5 小结335
- 参考文献336