它是1本实干之作,集中体现数据统计分析步骤的各类阶段,包括统计数据的收集、清理和探索性剖析,并根据大伙儿耳熟能说的Python小工具多方面实际操作。
这书做为数据统计分析的新手入门书籍,以Python語言为基本,详细介绍了数据统计分析的全部步骤。这书内容包括统计数据的获得(即互联网网页爬虫的设计构思)、早期统计数据的清理和解决、应用机器学习算法开展模型剖析,及其应用数据可视化的方式展现统计数据及結果。最先,书中不容易涉及到过度高級的英语的语法,只有還是期待用户有必须的英语的语法基本,那样能够尽快了解这书的內容。次之,这书重中之重取决于运用Python来进行某些数据统计分析和数据处理方法的工作中,即怎么使用Python来进行工作中并非致力于Python語言英语的语法等基本原理的解读。这书的目地是让新手无论对数据统计分析步骤自身還是Python語言,都能有个非常形象化的体会,为之后的加强学习奠定基础。*后,用户不务必按序细读这书,由于每个章节目录层级较为明晰,能够依据兴趣爱好或是必须来自行安置。比如第5章详细介绍了某些实战的好项目,趣味且难度系数并不大,大伙儿能够在学习培训前边內容闲暇来阅读文章这些內容。
目录
- 1 准备 1
- 1.1 开发环境搭建 2
- 1.1.1 在Ubuntu系统下搭建Python集成开发环境 2
- 1.1.2 在Windows系统下搭建Python集成开发环境 13
- 1.1.3 三种安装第三方库的方法 16
- 1.2 Python基础语法介绍 19
- 1.2.1 if__name__=='__main__' 20
- 1.2.2 列表解析式 22
- 1.2.3 装饰器 23
- 1.2.4 递归函数 26
- 1.2.5 面向对象 27
- 1.3 The Zen of Python 28
- 参考文献 30
- 2 数据的获取 31
- 2.1 爬虫简介 31
- 2.2 数据抓取实践 33
- 2.2.1 请求网页数据 33
- 2.2.2 网页解析 38
- 2.2.3 数据的存储 46
- 2.3 爬虫进阶 50
- 2.3.1 异常处理 50
- 2.3.2 robots.txt 58
- 2.3.3 动态UA 60
- 2.3.4 代理IP 61
- 2.3.5 编码检测 61
- 2.3.6 正则表达式入门 63
- 2.3.7 模拟登录 69
- 2.3.8 验证码问题 74
- 2.3.9 动态加载内容的获取 84
- 2.3.10 多线程与多进程 93
- 2.4 爬虫总结 101
- 参考文献 102
- 3 数据的存取与清洗 103
- 3.1 数据存取 103
- 3.1.1 基本文件操作 103
- 3.1.2 CSV文件的存取 111
- 3.1.3 JSON文件的存取 116
- 3.1.4 XLSX文件的存取 121
- 3.1.5 MySQL数据库文件的存取 137
- 3.2 NumPy 145
- 3.2.1 NumPy简介 145
- 3.2.2 NumPy基本操作 146
- 3.3 pandas 158
- 3.3.1 pandas简介 158
- 3.3.2 Series与DataFrame的使用 159
- 3.3.3 布尔值数组与函数应用 169
- 3.4 数据的清洗 174
- 3.4.1 编码问题 174
- 3.4.2 缺失值的检测与处理 175
- 3.4.3 去除异常值 181
- 3.4.4 去除重复值与冗余信息 183
- 3.4.5 注意事项 185
- 参考文献 187
- 4 数据的分析及可视化 188
- 4.1 探索性数据分析 189
- 4.1.1 基本流程 189
- 4.1.2 数据降维 197
- 4.2 机器学习入门 199
- 4.2.1 机器学习简介 200
- 4.2.2 决策树——机器学习算法的应用 202
- 4.3 手动实现KNN算法 205
- 4.3.1 特例——最邻近分类器 205
- 4.3.2 KNN算法的完整实现 213
- 4.4 数据可视化 215
- 4.4.1 高质量作图工具——matplotlib 215
- 4.4.2 快速作图工具——pandas与matplotlib 223
- 4.4.3 简捷作图工具——seaborn与matplotlib 226
- 4.4.4 词云图 230
- 参考文献 232
- 5 Python与生活 234
- 5.1 定制一个新闻提醒服务 234
- 5.1.1 新闻数据的抓取 235
- 5.1.2 实现邮件发送功能 237
- 5.1.3 定时执行及本地日志记录 239
- 5.2 Python与数学 241
- 5.2.1 估计π值 242
- 5.2.2 三门问题 245
- 5.2.3 解决LP与QP问题(选读) 247
- 5.3 QQ群聊天记录数据分析 251
- 参考文献 256