Excel是数据分析中最常用的工具,本书通过Python与Excel的功能对比介绍如何使用Python通过函数式编程完成Excel中的数据处理及分析工作。在Python中pandas库用于数据处理,我们从1787页的pandas官网文档中总结出最常用的36个函数,通过这些函数介绍如何通过Python完成数据生成和导入、数据清洗、预处理,以及最常见的数据分类,数据筛选,分类汇总,透视等最常见的操作。
目录
- 作者简介
- 第1章 生成数据表
- 1. 导入数据表
- 2. 创建数据表
- 第2章 数据表检查
- 1. 数据维度(行列)
- 2. 数据表信息
- 3. 查看数据格式
- 4. 查看空值
- 5. 查看唯一值
- 6. 查看数据表数值
- 7. 查看列名称
- 8. 查看前10行数据
- 9. 查看后10行数据
- 第3章 数据表清洗
- 1. 处理空值(删除或填充)
- 2. 清理空格
- 3. 大小写转换
- 4. 更改数据格式
- 5. 更改列名称
- 6. 删除重复值
- 7. 数值修改及替换
- 第4章 数据预处理
- 1. 数据表合并
- 2. 设置索引列
- 3. 排序(按索引,按数值)
- 4. 数据分组
- 5. 数据分列
- 第5章 数据提取
- 1. 按标签提取(loc)
- 2. 按位置提取(iloc)
- 3. 按标签和位置提取(ix)
- 4. 按条件提取(区域和条件值)
- 第6章 数据筛选
- 按条件筛选(与、或、非)
- 第7章 数据汇总
- 1. 分类汇总
- 2. 数据透视
- 第8章 数据统计
- 1. 数据采样
- 2. 描述统计
- 3. 标准差
- 4. 协方差
- 5. 相关分析
- 第9章 数据输出
- 1. 写入Excel
- 2. 写入csv
- 案例 990万次骑行:纽约自行车共享系统分析
- 开始前的准备工作
- 惊人的990万次骑行
- 哪些人在使用Citi Bike ?
- 用户的骑行时间及速度
- 骑行与气温是否存在关联?
- 骑行速度与年龄是否存在关联?
- 哪些骑行线路最受欢迎?
- 结束语