数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法,就可以让数据清洗工作事半功倍。
本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。最后提供了两个真实的项目,让读者将所有数据清洗技术付诸实践,完成整个数据科学过程。
如果你是一位数据科学家,或者从事数据科学工作,哪怕是位新手,只要对数据清洗有兴趣,那么本书就适合你阅读!
目录
- 第1章 为什么需要清洗数据 1
- 第2章 基础知识——格式、 类型与编码 11
- 第3章 数据清洗的老黄牛——电子表格和文本编辑器 47
- 第4章 讲通用语言——数据转换 64
- 第5章 收集并清洗来自网络的数据 85
- 第6章 清洗PDF文件中的数据 106
- 第7章 RDBMS清洗技术 118
- 第8章 数据分享的最佳实践 136
- 第9章 Stack Overflow项目 149
- 第10章 Twitter项目 171