《Python数据分析与数据化运营(第2版)》是由机械工业出版社出版的一本关于Python数据方面的书籍,作者是宋天龙,主要介绍了关于Python数据分析、Python数据化运营方面的知识内容,目前在Python数据类书籍综合评分为:9.1分。
书籍介绍
(1)创作者是有10多年数据统计分析与数字化经营工作经验的大数据专家,在世界各国公司都工作中过,阅历丰富。
(2)创作者擅于小结和创作,善于共享,编写数据统计分析类畅销书籍3部。
(3)这书与类似书*大的不一样取决于,并不是只能纯碎的有关数据统计分析技术和专用工具的解读,并且还与数据信息应用情景深层融合,在业务流程上真实可具体指导落地式。
(4)新版本除开Python升级来到*新版本外,主要内容上干了大幅的填补和提升,总体篇数超出30%,详细序言。
(5)这书创作者出示手机微信、电子邮箱等,可根据即时和线下二种方法立即为读者在线传道、受业、答疑解惑。
它是一本将数据统计分析技术与数据信息应用情景深层融合的经典著作,从实战演练视角解读了怎样运用Python开展数据统计分析和数字化经营。
畅销书籍全新升级、大幅度更新,第1版几近100%的五星好评,第2版不但将Python更新来到*新的版本号,并且对主要内容开展了大幅的填补和提升。创作者是有10多年数据统计分析与数字化经营的大数据专家,书中对50多个数据信息审批流知识要点、14个数据统计分析与发掘主题风格、4个数字化经营主题风格、8个综合型实例开展了全方位的解读,能让数字化经营融合数据信息应用情景360°落地式。
本书一共9章,分成2个一部分:
第壹一部分(第1-4章)Python数据统计分析与发掘
最先详细介绍了Python和数字化经营的基础知识,随后详尽解读了Python数据信息获得(结构型和非结构型)、预备处理、解析和发掘的重要技术和工作经验,包括10类别预备处理工作经验、14个数据统计分析与发掘主题风格,50多个知识要点。
第二一部分(第5~9章)Python数字化经营
它是这书的关键,详尽解读了vip会员经营、货品经营、总流量经营和内容营销4大主题风格,及其提高数字化经营使用价值的方式 。每一经营主题风格上都包括了基础知识、评定指标值、应用领域、数据统计分析实体模型、数据统计分析小窍门、数据统计分析社会嗑及其2个综合型的运用实例。
目录
- 前言
- 第1章 Python和数据化运营1
- 1.1 用Python做数据化运营1
- 1.1.1 Python是什么1
- 1.1.2 数据化运营是什么2
- 1.1.3 Python用于数据化运营5
- 1.2 数据化运营所需的Python相关工具和组件5
- 1.2.1 Python程序6
- 1.2.2 Python交互环境Jupyter7
- 1.2.3 Python第三方库23
- 1.2.4 数据库和客户端29
- 1.2.5 SSH远程客户端30
- 1.3 内容延伸:Python的OCR和tensorflow31
- 1.3.1 OCR工具:Tesseract-ocr31
- 1.3.2 机器学习框架:TensorFlow31
- 1.4 第1个用Python实现的数据化运营分析实例、销售预测32
- 1.4.1 案例概述32
- 1.4.2 案例过程32
- 1.4.3 案例小结36
- 1.5 本章小结37
- 第2章 数据化运营的数据来源40
- 2.1 数据化运营的数据来源类型40
- 2.1.1 数据文件40
- 2.1.2 数据库41
- 2.1.3 API42
- 2.1.4 流式数据43
- 2.1.5 外部公开数据43
- 2.1.6 其他来源44
- 2.2 使用Python获取运营数据44
- 2.2.1 从文本文件读取运营数据44
- 2.2.2 从Excel获取运营数据55
- 2.2.3 从关系型数据库MySQL读取运营数据57
- 2.2.4 从非关系型数据库MongoDB读取运营数据64
- 2.2.5 从API获取运营数据68
- 2.3 内容延伸:读取非结构化网页、文本、图像、视频、语音72
- 2.3.1 从网页中获取运营数据72
- 2.3.2 读取非结构化文本数据73
- 2.3.3 读取图像数据74
- 2.3.4 读取视频数据78
- 2.3.5 读取语音数据81
- 2.4 本章小结85
- 第3章 10条数据化运营不得不知道的数据预处理经验87
- 3.1 数据清洗:缺失值、异常值和重复值的处理87
- 3.1.1 数据列缺失的4种处理方法87
- 3.1.2 不要轻易抛弃异常数据89
- 3.1.3 数据重复就需要去重吗90
- 3.1.4 代码实操:Python数据清洗92
- 3.2 将分类数据和顺序数据转换为标志变量100
- 3.2.1 分类数据和顺序数据是什么100
- 3.2.2 运用标志方法处理分类和顺序变量101
- 3.2.3 代码实操:Python标志转换101
- 3.3 大数据时代的数据降维104
- 3.3.1 需要数据降维的情况104
- 3.3.2 基于特征选择的降维105
- 3.3.3 基于特征转换的降维106
- 3.3.4 基于特征组合的降维112
- 3.3.5 代码实操:Python数据降维114
- 3.4 解决样本类别分布不均衡的问题123
- 3.4.1 哪些运营场景中容易出现样本不均衡124
- 3.4.2 通过过抽样和欠抽样解决样本不均衡124
- 3.4.3 通过正负样本的惩罚权重解决样本不均衡124
- 3.4.4 通过组合/集成方法解决样本不均衡125
- 3.4.5 通过特征选择解决样本不均衡125
- 3.4.6 代码实操:Python处理样本不均衡125
- 3.5 数据化运营要抽样还是全量数据128
- 3.5.1 什么时候需要抽样128
- 3.5.2 如何进行抽样129
- 3.5.3 抽样需要注意的几个问题130
- 3.5.4 代码实操:Python数据抽样131
- 3.6 解决运营数据的共线性问题135
- 3.6.1 如何检验共线性135
- 3.6.2 解决共线性的5种常用方法136
- 3.6.3 代码实操:Python处理共线性问题137
- 3.7 有关相关性分析的混沌139
- 3.7.1 相关和因果是一回事吗139
- 3.7.2 相关系数低就是不相关吗139
- 3.7.3 代码实操:Python相关性分析140
- 3.8 标准化,让运营数据落入相同的范围141
- 3.8.1 实现中心化和正态分布的Z-Score141
- 3.8.2 实现归一化的Max-Min142
- 3.8.3 用于稀疏数据的MaxAbs142
- 3.8.4 针对离群点的RobustScaler142
- 3.8.5 代码实操:Python数据标准化处理142
- 3.9 离散化,对运营数据做逻辑分层145
- 3.9.1 针对时间数据的离散化145
- 3.9.2 针对多值离散数据的离散化146
- 3.9.3 针对连续数据的离散化146
- 3.9.4 针对连续数据的二值化147
- 3.9.5 代码实操:Python数据离散化处理147
- 3.10 内容延伸:非结构化数据的预处理151
- 3.10.1 网页数据解析151
- 3.10.2 网络用户日志解析159
- 3.10.3 图像的基本预处理164
- 3.10.4 自然语言文本预处理169
- 3.11 本章小结172
- 第4章 跳过运营数据分析和挖掘的“大坑”174
- 4.1 聚类分析174
- 4.1.1 当心数据异常对聚类结果的影响175
- 4.1.2 超大数据量时应该放弃K均值算法175
- 4.1.3 聚类不仅是建模的终点,更是重要的中间预处理过程177
- 4.1.4 高维数据上无法应用聚类吗178
- 4.1.5 如何选择聚类分析算法179
- 4.1.6 案例:客户特征的聚类与探索性分析179
- 4.2 回归分析196
- 4.2.1 注意回归自变量之间的共线性问题197
- 4.2.2 相关系数、判定系数和回归系数之间是什么关系197
- 4.2.3 判定系数是否意味着相应的因果联系197
- 4.2.4 注意应用回归模型时研究自变量是否产生变化198
- 4.2.5 如何选择回归分析算法198
- 4.2.6 案例:大型促销活动前的销售预测199
- 4.3 分类分析206
- 4.3.1 防止分类模型的过拟合问题207
- 4.3.2 使用关联算法做分类分析207
- 4.3.3 用分类分析来提炼规则、提取变量、处理缺失值208
- 4.3.4 类别划分:分类算法和聚类算法都是好手209
- 4.3.5 如何选择分类分析算法210
- 4.3.6 案例:用户流失预测分析与应用210
- 4.4 关联分析221
- 4.4.1 频繁规则不一定是有效规则221
- 4.4.2 不要被啤酒尿布的故事禁锢你的思维222
- 4.4.3 被忽略的“负相关”模式真的毫无用武之地吗223
- 4.4.4 频繁规则只能打包组合应用吗2