《数据预处理从入门到实战:基于SQL、R、Python》是由人民邮电出版社出版的一本关于数据处理方面的书籍,作者是本桥智光,主要介绍了关于数据处理、SQL、R语言、Python方面的知识内容,目前在数据处理类书籍综合评分为:7.8分。
书籍介绍
一本书掌握大数据、人工智能时代需要的数据预处理技术
·KDD CUP 2015亚军得主多行业实战经验总结;
·54道例题,涵盖常见数据预处理技术;
·3个实战案例,快速提升应用能力;
·3种语言实现对比,代码优化关键点一目了然;
·配套数据 源码可下载;
·SQL的版本为Redshift,Pyhton的版本为3.6,R的版本的3.4;
·双色印刷。
数据提取/数据聚合/数据连接/数据拆分/数据生成/数据扩展
数值型/分类型/日期时间型/字符型/位置信息型
1.习题式结构,带着问题思考、学习,效果更好
本书采用问题驱动式,先抛出常见预处理任务,引导读者思考如何实现。像这样带着问题学习,可以大大提高学习效果,让理解更深入。
2.对比3种不同语言的实现,把握每种语言的特长
用SQL、R、Python对比解决相同的案例问题,可以让读者了解各语言在处理各种预处理问题时有哪些优缺点,从而根据情况选择合适的语言,提升预处理效率。
3.同时给出一般代码与理想代码,优化处理的关键一目了然
对于每道例题,都同时给出一般代码与理想代码,读者不仅可以边阅读边思考如何修改一般代码,还可以通过与理想代码的对比明白如何优化代码。
在大数据、人工智能时代,数据分析必不可少。本书以数据分析中至关重要的数据预处理为主题,通过54道例题具体介绍了基于SQL、R、Python的处理方法和相关技巧。全书共4个部分:第1部分介绍预处理的基础知识;第2部分介绍以数据结构为对象的预处理,包括数据提取、数据聚合、数据连接、数据拆分、数据生成和数据扩展;第3部分介绍以数据内容为对象的预处理,涉及数值型、分类型、日期时间型、字符型和位置信息型;第4部分为预处理实战,介绍与实际业务相同的预处理流程。
本书适合新手数据科学家、系统工程师、具备编程及数理基础的技术人才,以及对数据挖掘和数据分析等感兴趣的人阅读。
目录
- 第 1部分 预处理入门 1
- 第 1章 什么是预处理 2
- 1-1 数据 2
- 记录数据 2
- 数据类型 3
- 1-2 预处理的作用 3
- 机器学习 4
- 无监督学习和有监督学习 4
- 用于数据分析的3种预处理 5
- 1-3 预处理的流程 6
- 对数据结构的预处理 7
- 对数据内容的预处理 7
- 预处理的步骤 7
- 1-4 3种编程语言 9
- 正确使用编程语言 9
- 1-5 包和库 10
- 用于数据分析的包和库 10
- 1-6 数据集 11
- 酒店预订记录 12
- 工厂产品记录 13
- 月度指标记录 14
- 文本数据集 14
- 1-7 读取数据 14
- 第 2部分 对数据结构的预处理 19
- 第 2章 数据提取 20
- 2-1 提取指定的列 20
- Q 提取列 21
- 2-2 按指定条件提取 26
- Q 按条件提取数据行 28
- Q 间接利用索引提取数据行 33
- 2-3 不基于数据值的采样 35
- Q 随机采样 35
- 2-4 基于聚合ID的采样 38
- Q 按ID采样 39
- 第3章 数据聚合 43
- 3-1 计算数据条数和类型数 43
- Q 计数和唯一值计数 44
- 3-2 计算合计值 48
- Q 合计值 48
- 3-3 计算最值、代表值 50
- Q 代表值 51
- 3-4 计算离散程度 54
- Q 方差和标准差 54
- 3-5 计算众数 57
- Q 众数 58
- 3-6 排序 61
- 排序函数 61
- Q 为时序数据添加编号 62
- Q 排序 66
- 第4章 数据连接 69
- 4-1 主表的连接 69
- Q 主表的连接 70
- 4-2 切换按条件连接的表 77
- Q 切换按条件连接的主表 77
- 4-3 连接历史数据 84
- Q 获取往前数第n条记录的数据 85
- Q 前n条记录的合计值 88
- Q 前n条记录的平均值 92
- Q 过去n天的合计值 95
- 4-4 交叉连接 99
- Q 交叉连接处理 99
- 第5章 数据拆分 105
- 5-1 记录数据中模型验证数据的拆分 105
- Q 交叉验证 107
- 5-2 时序数据中模型验证数据的拆分 111
- Q 准备时序数据中的训练数据和验证数据 113
- 第6章 数据生成 117
- 6-1 通过欠采样调整不平衡数据 118
- 6-2 通过过采样调整不平衡数据 119
- Q 过采样 120
- 第7章 数据扩展 124
- 7-1 转换为横向显示 124
- Q 转换为横向显示 125
- 7-2 转换为稀疏矩阵 128
- Q 稀疏矩阵 128
- 第3部分 对数据内容的预处理 131
- 第8章 数值型 132
- 8-1 转换为数值型 132
- Q 各种数据类型的转换 132
- 8-2 通过对数化实现非线性变换 135
- Q 对数化 137
- 8-3 通过分类化实现非线性变换 139
- Q 数值型的分类化 140
- 8-4 归一化 142
- Q 归一化 143
- 8-5 删除异常值 146
- Q 根据标准差删除异常值 146
- 8-6 用主成分分析实现降维 148
- Q 用主成分分析实现降维 149
- 8-7 数值填充 152
- Q 删除缺失记录 153
- Q 用常数填充 155
- Q 均值填充 157
- Q 用PMM实现多重插补 160
- 第9章 分类型 164
- 9-1 转换为分类型 164
- Q 分类型的转换 165
- 9-2 哑变量化 168
- Q 哑变量化 169
- 9-3 分类值的聚合 171
- Q 分类值的聚合 172
- 9-4 分类值的组合 175
- Q 分类值的组合 175
- 9-5 分类型的数值化 177
- Q 分类型的数值化 178
- 9-6 分类型的填充 181
- Q 用KNN填充 182
- 第 10章 日期时间型 185
- 10-1 转换为日期时间型、日期型 185
- Q 日期时间型、日期型的转换 185
- 10-2 转换为年、月、日、时、分、秒、星期 189
- Q 获取各日期时间元素 190
- 10-3 转换为日期时间差 194
- Q 计算日期时间差 195
- 10-4 日期时间型的增减 200
- Q 日期时间的增减处理 200
- 10-5 转换为季节 203
- Q 转换为季节 204
- 10-6 转换为时间段 208
- 10-7 转换为工作日、休息日 209
- Q 添加休息日标志 209
- 第 11章 字符型 212
- 11-1 通过形态分析进行分解 213
- Q 提取名词和动词 213
- 11-2 转换为单词的集合数据 215
- Q 创建词袋 216
- 11-3 用TF-IDF调整单词权重 220
- Q 创建使用TF-IDF的词袋 221
- 第 12章 位置信息型 224
- 12-1 从日本坐标系到世界坐标系的转换以及从度、分、秒到度的转换 224
- Q 从日本坐标系转换为世界坐标系 224
- 12-2 两点间距离、方向的计算 228
- Q 计算距离 228
- 第4部分 预处理实战 233
- 第 13章 实战练习 234
- 13-1 聚合分析的预处理 234
- Q 聚合分析的准备工作 234
- 13-2 用于推荐的预处理 238
- Q 生成推荐矩阵 238
- 13-3 预测建模的预处理 243
- Q 用于预测建模的预处理 243
- 结语 254
- 参考文献 255