这书內容从逻辑性上共分成两绝大多数,第壹一部分是相关数据统计分析类的主题风格,其次一部分是相关数字化经营的主题风格。第壹一部分的內容包含1/2/3/4章和附则,关键详细介绍了Python和数字化经营的基础知识、统计数据来源于获得、数据预处理及其数据统计分析和发掘的重要工作经验。其次一部分的內容包含5/6/7/8/9章的內容,各自详细介绍了vip会员经营、货品经营、总流量经营和内容营销就4个大主题风格,及其提高数字化经营使用价值度的方式。在每一数字化经营主题风格中包括了基础知识、评定指标值、应用领域、数据统计分析实体模型、数据统计分析小窍门、数据统计分析大实话及其2个运用实例。
目录
- 赞誉
- 前言
- 第1章 Python和数据化运营1
- 1.1 用Python做数据化运营1
- 1.1.1 Python是什么1
- 1.1.2 数据化运营是什么2
- 1.1.3 Python用于数据化运营5
- 1.2 数据化运营所需的Python相关工具和组件6
- 1.2.1 Python程序6
- 1.2.2 Python IDE7
- 1.2.3 Python第三方库8
- 1.2.4 数据库和客户端16
- 1.2.5 SSH远程客户端18
- 1.3 内容延伸:Python的OCR和TensorFlow18
- 1.3.1 OCR工具:Tesseract-OCR18
- 1.3.2 机器学习框架—TensorFlow19
- 1.4 第一个用Python实现的数据化运营分析实例—销售预测20
- 1.4.1 案例概述20
- 1.4.2 案例过程20
- 1.4.3 案例小结28
- 1.5 本章小结28
- 第2章 数据化运营的数据来源31
- 2.1 数据化运营的数据来源类型31
- 2.1.1 数据文件31
- 2.1.2 数据库32
- 2.1.3 API33
- 2.1.4 流式数据34
- 2.1.5 外部公开数据34
- 2.1.6 其他35
- 2.2 使用Python获取运营数据35
- 2.2.1 从文本文件读取运营数据35
- 2.2.2 从Excel获取运营数据46
- 2.2.3 从关系型数据库MySQL读取运营数据48
- 2.2.4 从非关系型数据库MongoDB读取运营数据56
- 2.2.5 从API获取运营数据59
- 2.3 内容延伸:读取非结构化网页、文本、图像、视频、语音64
- 2.3.1 从网页中爬取运营数据64
- 2.3.2 读取非结构化文本数据65
- 2.3.3 读取图像数据65
- 2.3.4 读取视频数据68
- 2.3.5 读取语音数据70
- 2.4 本章小结75
- 第3章 11条数据化运营不得不知道的数据预处理经验76
- 3.1 数据清洗:缺失值、异常值和重复值的处理76
- 3.1.1 数据列缺失的4种处理方法76
- 3.1.2 不要轻易抛弃异常数据78
- 3.1.3 数据重复就需要去重吗79
- 3.1.4 代码实操:Python数据清洗81
- 3.2 将分类数据和顺序数据转换为标志变量89
- 3.2.1 分类数据和顺序数据是什么89
- 3.2.2 运用标志方法处理分类和顺序数据90
- 3.2.3 代码实操:Python标志转换90
- 3.3 大数据时代的数据降维94
- 3.3.1 需要数据降维的情况94
- 3.3.2 基于特征选择的降维94
- 3.3.3 基于维度转换的降维96
- 3.3.4 代码实操:Python数据降维97
- 3.4 解决样本类别分布不均衡的问题100
- 3.4.1 哪些运营场景中容易出现样本不均衡100
- 3.4.2 通过过抽样和欠抽样解决样本不均衡101
- 3.4.3 通过正负样本的惩罚权重解决样本不均衡101
- 3.4.4 通过组合/集成方法解决样本不均衡102
- 3.4.5 通过特征选择解决样本不均衡102
- 3.4.6 代码实操:Python处理样本不均衡102
- 3.5 如何解决运营数据源的冲突问题106
- 3.5.1 为什么会出现多数据源的冲突107
- 3.5.2 如何应对多数据源的冲突问题109
- 3.6 数据化运营要抽样还是全量数据109
- 3.6.1 什么时候需要抽样110
- 3.6.2 如何进行抽样110
- 3.6.3 抽样需要注意的几个问题111
- 3.6.4 代码实操:Python数据抽样113
- 3.7 解决运营数据的共线性问题116
- 3.7.1 如何检验共线性117
- 3.7.2 解决共线性的5种常用方法117
- 3.7.3 代码实操:Python处理共线性问题118
- 3.8 有关相关性分析的混沌120
- 3.8.1 相关和因果是一回事吗120
- 3.8.2 相关系数低就是不相关吗121
- 3.8.3 代码实操:Python相关性分析121
- 3.9 标准化,让运营数据落入相同的范围122
- 3.9.1 实现中心化和正态分布的Z-Score122
- 3.9.2 实现归一化的Max-Min123
- 3.9.3 用于稀疏数据的MaxAbs123
- 3.9.4 针对离群点的RobustScaler123
- 3.9.5 代码实操:Python数据标准化处理123
- 3.10 离散化,对运营数据做逻辑分层126
- 3.10.1 针对时间数据的离散化127
- 3.10.2 针对多值离散数据的离散化127
- 3.10.3 针对连续数据的离散化127
- 3.10.4 针对连续数据的二值化128
- 3.10.5 代码实操:Python数据离散化处理128
- 3.11 数据处理应该考虑哪些运营业务因素133
- 3.11.1 考虑固定和突发运营周期133
- 3.11.2 考虑运营需求的有效性134
- 3.11.3 考虑交付时要贴合运营落地场景134
- 3.11.4 不要忽视业务专家经验135
- 3.11.5 考虑业务需求的变动因素136
- 3.12 内容延伸:非结构化数据的预处理137
- 3.12.1 网页数据解析137
- 3.12.2 网络用户日志解析144
- 3.12.3 图像的基本预处理148
- 3.12.4 自然语言文本预处理154
- 3.13 本章小结157
- 第4章 跳过运营数据分析和挖掘的“大坑”159
- 4.1 聚类分析159
- 4.1.1 当心数据异常对聚类结果的影响160
- 4.1.2 超大数据量时应该放弃K均值算法160
- 4.1.3 聚类不仅是建模的终点,更是重要的中间预处理过程162
- 4.1.4 高维数据上无法应用聚类吗163
- 4.1.5 如何选择聚类分析算法164
- 4.1.6 代码实操:Python聚类分析164
- 4.2 回归分析172
- 4.2.1 注意回归自变量之间的共线性问题172
- 4.2.2 相关系数、判定系数和回归系数之间到底什么关系172
- 4.2.3 判定系数是否意味着相应的因果联系173
- 4.2.4 注意应用回归模型时研究自变量是否产生变化173
- 4.2.5 如何选择回归分析算法174
- 4.2.6 代码实操:Python回归分析174
- 4.3 分类分析183
- 4.3.1 防止分类模型的过拟合问题183
- 4.3.2 使用关联算法做分类分析183
- 4.3.3 用分类分析来提炼规则、提取变量、处理缺失值184
- 4.3.4 类别划分-分类算法和聚类算法都是好手185
- 4.3.5 如何选择分类分析算法186
- 4.3.6 代码实操:Python分类分析187
- 4.4 关联分析195
- 4.4.1 频繁规则不一定是有效规则195
- 4.4.2 不要被啤酒尿布的故事紧固你的思维196
- 4.4.3 被忽略的“负相关”模式真的毫无用武之地吗197
- 4.4.4 频繁规则只能打包组合应用吗198
- 4.4.5 关联规则的序列模式199
- 4.4.6 代码实操:Python关联分析200
- 4.5 异常检测分析206
- 4.5.1 异常检测中的“新奇检测”模式207
- 4.5.2 将数据异常与业务异常相分离207
- 4.5.3 面临维度灾难时,异常检测可能会失效208
- 4.5.4 异常检测的结果能说明异常吗208
- 4.5.5 代码实操:Python异常检测分析208
- 4.6 时间序列分析212
- 4.6.1 如果有自变量,为什么还要用时间序列212
- 4.6.2 时间序列不适合商业环境复杂的企业213
- 4.6.3 时间序列预测的整合、横向和纵向模式214
- 4.6.4 代码实操:Python时间序列分析214
- 4.7 路径、漏斗、归因和热力图分析234
- 4.7.1 不要轻易相信用户的页面访问路径237
- 4.7.2 如何将路径应用于更多用户行为模式的挖掘?237
- 4.7.3 为什么很多数据都显示多渠道路径的价值很小?238
- 4.7.4 点击热力图真的反映了用户的点击喜好?239
- 4.7.5 为什么归因分析主要存在于线上的转化行为240
- 4.7.6 漏斗分析和路径分析有什么区别240
- 4.8 其他数据分析和挖掘的忠告241
- 4.8.1 不要忘记数据质量的验证241
- 4.8.2 不要忽视数据的落地性242
- 4.8.3 不要把数据陈列当作数据结论242
- 4.8.4 数据结论不要产生于单一指标244
- 4.8.5 数据分析不要预设价值立场244
- 4.8.6 不要忽视数据与业务的需求冲突问题245
- 4.9 内容延伸:非结构化数据的分析与挖掘246
- 4.9.1 词频统计246
- 4.9.2 词性标注249
- 4.9.3 关键字提取253
- 4.9.4 文本聚类255
- 4.10 本章小结258
- 第5章 会员数据化运营260
- 5.1 会员数据化运营概述260
- 5.2 会员数据化运营关键指标261
- 5.2.1 会员整体指标261
- 5.2.2 会员营销指标261
- 5.2.3 会员活跃度指标263
- 5.2.4 会员价值度指标265
- 5.2.5 会员终生价值指标266
- 5.2.6 会员异动指标266
- 5.3 会员数据化运营应用场景267
- 5.3.1 会员营销267
- 5.3.2 会员关怀267
- 5.4 会员数据化运营分析模型268
- 5.4.1 会员细分模型268
- 5.4.2 会员价值度模型269
- 5.4.3 会员活跃度模型270
- 5.4.4 会员流失预测模型271
- 5.4.5 会员特征分析模型272
- 5.4.6 营销响应预测模型273
- 5.5 会员数据化运营分析小技巧274
- 5.5.1 使用留存分析新用户质量274
- 5.5.2 使用AARRR做APP用户生命周期分析275
- 5.5.3 借助动态数据流关注会员状态的轮转276
- 5.5.4 使用协同过滤算法为新会员分析推送个性化信息277
- 5.6 会员数据化运营分析的“大实话”279
- 5.6.1 企业“不差钱”,还有必要做会员精准营销吗279
- 5.6.2 用户满意度取决于期望和给予的匹配程度280
- 5.6.3 用户不购买就是流失了吗280
- 5.6.4 来自调研问卷的用户信息可信吗281
- 5.6.5 不要盲目相信二八法则283
- 5.7 案例:基于RFM的用户价值度分析283
- 5.7.1 案例背景283
- 5.7.2 案例主要应用技术284
- 5.7.3 案例数据284
- 5.7.4 案例过程284
- 5.7.5 案例数据结论294
- 5.7.6 案例应用和部署295
- 5.7.7 案例注意点295
- 5.7.8 案例引申思考296
- 5.8 案例:基于AdaBoost的营销响应预测297
- 5.8.1 案例背景297
- 5.8.2 案例主要应用技术297
- 5.8.3 案例数据298
- 5.8.4 案例过程298
- 5.8.5 案例数据结论313
- 5.8.6 案例应用和部署313
- 5.8.7 案例注意点314
- 5.8.8 案例引申思考315
- 5.9 本章小结315
- 第6章 商品数据化运营317
- 6.1 商品数据化运营概述317
- 6.2 商品数据化运营关键指标317
- 6.2.1 销售类指标317
- 6.2.2 促销活动指标320
- 6.2.3 供应链指标321
- 6.3 商品数据化运营应用场景323
- 6.3.1 销售预测323
- 6.3.2 库存分析323
- 6.3.3 市场分析324
- 6.3.4 促销分析324
- 6.4 商品数据化运营分析模型325
- 6.4.1 商品价格敏感度模型325
- 6.4.2 新产品市场定位模型326
- 6.4.3 销售预测模型327
- 6.4.4 商品关联销售模型327
- 6.4.5 异常订单检测328
- 6.4.6 商品规划的最优组合328
- 6.5 商品数据化运营分析小技巧330
- 6.5.1 使用层次分析法将定量与定性分析结合331
- 6.5.2 通过假设检验做促销拉动分析333
- 6.5.3 使用BCG矩阵做商品结构分析334
- 6.5.4 巧用4P分析建立完善的商品运营分析结构336
- 6.6 商品数据化运营分析的“大实话”337
- 6.6.1 为什么很多企业会以低于进价的价格大量销售商品337
- 6.6.2 促销活动真的是在促进商品销售吗339
- 6.6.3 用户关注的商品就是要买的商品吗340
- 6.6.4 提供的选择过多其实不利于商品销售341
- 6.7 案例:基于超参数优化的Gradient Boosting的销售预测341
- 6.7.1 案例背景341
- 6.7.2 案例主要应用技术341
- 6.7.3 案例数据342
- 6.7.4 案例过程343
- 6.7.5 案例数据结论351
- 6.7.6 案例应用和部署351
- 6.7.7 案例注意点351
- 6.7.8 案例引申思考351
- 6.8 案例:基于LogisticRegression、
- RandomForest、Bagging概率投票
- 组合模型的异常检测352
- 6.8.1 案例背景352
- 6.8.2 案例主要应用技术352
- 6.8.3 案例数据353
- 6.8.4 案例过程353
- 6.8.5 案例数据结论364
- 6.8.6 案例应用和部署364
- 6.8.7 案例注意点365
- 6.8.8 案例引申思考365
- 6.9 本章小结367
- 第7章 流量数据化运营369
- 7.1 流量数据化运营概述369
- 7.2 8大流量分析工具369
- 7.3 如何选择第三方流量分析工具372
- 7.4 流量采集分析系统的工作机制375
- 7.4.1 流量数据采集376
- 7.4.2 流量数据处理379
- 7.4.3 流量数据应用380
- 7.5 流量数据与企业数据的整合381
- 7.5.1 流量数据整合的意义381
- 7.5.2 流量数据整合的范畴382
- 7.5.3 流量数据整合的方法382
- 7.6 流量数据化运营指标383
- 7.6.1 站外营销推广指标383
- 7.6.2 网站流量数量指标385
- 7.6.3 网站流量质量指标386
- 7.7 流量数据化运营应用场景389
- 7.7.1 流量采购389
- 7.7.2 流量分发391
- 7.8 流量数据化运营分析模型391
- 7.8.1 流量波动检测392
- 7.8.2 渠道特征聚类393
- 7.8.3 广告整合传播模型393
- 7.8.4 流量预测模型397
- 7.9 流量数据化运营分析小技巧398
- 7.9.1 给老板提供一页纸的流量dashboard398
- 7.9.2 关注趋势、重要事件和潜在因素是日常报告的核心400
- 7.9.3 使用从细分到多层下钻数据分析400
- 7.9.4 通过跨屏追踪解决用户跨设备和浏览器的访问行为401
- 7.9.5 基于时间序列的用户群体过滤403
- 7.10 流量数据化运营分析的“大实话”406
- 7.10.1 流量数据分析的价值其实没那么大406
- 7.10.2 如何将流量的实时分析价值最大化406
- 7.10.3 营销流量的质量评估是难点工作407
- 7.10.4 个性化的媒体投放仍然面临很多问题408
- 7.10.5 传统的网站分析方法到底缺少了什么409
- 7.11 案例:基于自动节点树的数据异常原因下探分析413
- 7.11.1 案例背景413
- 7.11.2 案例主要应用技术414
- 7.11.3 案例数据415
- 7.11.4 案例过程416
- 7.11.5 案例数据结论430
- 7.11.6 案例应用和部署431
- 7.11.7 案例注意点432
- 7.11.8 案例引申思考432
- 7.12 案例:基于自动K值的KMeans广告效果聚类分析433
- 7.12.1 案例背景433
- 7.12.2 案例主要应用技术433
- 7.12.3 案例数据434
- 7.12.4 案例过程434
- 7.12.5 案例数据结论446
- 7.12.6 案例应用和部署447
- 7.12.7 案例注意点448
- 7.12.8 案例引申思考448
- 7.13 本章小结449
- 第8章 内容数据化运营451
- 8.1 内容数据化运营概述451
- 8.2 内容数据化运营指标452
- 8.3 内容数据化运营应用场景455
- 8.4 内容数据化运营分析模型456
- 8.4.1 情感分析模型456
- 8.4.2 搜索优化模型 457
- 8.4.3 文章关键字模型457
- 8.4.4 主题模型458
- 8.4.5 垃圾信息检测模型459
- 8.5 内容数据化运营分析小技巧460
- 8.5.1 通过AB测试和多变量测试找到最佳内容版本460
- 8.5.2 通过屏幕浏览占比了解用户到底看了页面多少内容461
- 8.5.3 通过数据分析系统与CMS打通实现个性化内容运营462
- 8.5.4 将个性化推荐从网站应用到APP端466
- 8.6 内容数据化运营分析的“大实话”467
- 8.6.1 个性化内容运营不仅是整合CMS和数据系统467
- 8.6.2 用户在着陆页上不只有跳出和继续两种状态467
- 8.6.3 “人工组合”的内容运营价值最大化并非不能实现468
- 8.6.4 影响内容点击率的因素不仅有位置469
- 8.7 案例:基于潜在狄利克雷分配(LDA)的内容主题挖掘470
- 8.7.1 案例背景470
- 8.7.2 案例主要应用技术470
- 8.7.3 案例数据471
- 8.7.4 案例过程471
- 8.7.5 案例数据结论480
- 8.7.6 案例应用和部署481
- 8.7.7 案例注意点481
- 8.7.8 案例引申思考481
- 8.8 案例:基于多项式贝叶斯的增量学习的文本分类482
- 8.8.1 案例背景482
- 8.8.2 案例主要应用技术482
- 8.8.3 案例数据482
- 8.8.4 案例过程483
- 8.8.5 案例数据结论491
- 8.8.6 案例应用和部署491
- 8.8.7 案例注意点491
- 8.8.8 案例引申思考492
- 8.9 本章小结492
- 第9章 数据化运营分析的终极秘籍495
- 9.1 撰写出彩的数据分析报告的5个建议495
- 9.1.1 完整的报告结构495
- 9.1.2 精致的页面版式496
- 9.1.3 漂亮的可视化图形498
- 9.1.4 突出报告的关键信息500
- 9.1.5 用报告对象习惯的方式撰写报告501
- 9.2 数据化运营支持的4种扩展方式502
- 9.2.1 数据API502
- 9.2.2 数据模型503
- 9.2.3 数据产品503
- 9.2.4 运营产品504
- 9.3 提升数据化运营价值度的5种途径504
- 9.3.1 数据源:不只有结构化的数据,还有文本、图片、视频、语音504
- 9.3.2 自动化:建立自动任务,解除重复劳动505
- 9.3.3 未卜先知:建立智能预警模型,不要让运营先找你505
- 9.3.4 智能化:向BI-AI的方向走507
- 9.3.5 场景化:将数据嵌入运营环节之中507
- 9.4 本章小结508
- 附录509
- 附录A 公开数据集509
- 附录B Python数据工具箱516