内容简介
这是一本以Python为工具,以商业实战为导向的数据科学家养成手册,从技术、业务、商业实战3个维度为有志成为数据科学家的读者提供了系统化的学习路径。3位作者是数据科学和金融领域的资深专家,不仅技术精湛、经验丰富,而且在本书的写作上也颇下功夫:首先,将数学和算法等复杂的技术用图形化的方式来展现,尽可能降低读者的理解难度;其次,本书不是一本教科书或案例集,而是针对数据科学家的能力模型提供系统化的解决方案。
全书一共19章,技术维度,内容依次围绕技术、业务和商业实战3个维度展开;业务维度,围绕宏观业务分析和微观客户分析展现了数据科学在市场研究、企业管理、客户画像与分析、精准营销、风险度量、流失预警等方面的知识点;实战维度,以案例的形式全面展现了著名咨询公司从事客户量化分析的方法论,为读者提供了标准的数据科学工作模板。
本书脚本请到作者的Github主页上下载(https://github.com/changgz/Pydsci)。
封面图
目录
- 前言
- 第1章数据科学家的武器库
- 11数据科学的基本概念
- 12数理统计技术
- 121描述性统计分析
- 122统计推断与统计建模
- 13数据挖掘的技术与方法
- 14描述性数据挖掘算法示例
- 141聚类分析——客户细分
- 142关联规则分析
- 15预测性数据挖掘算法示例
- 151决策树
- 152KNN算法
- 153Logistic回归
- 154神经网络
- 155支持向量机
- 156集成学习
- 157预测类模型讲解
- 158预测类模型评估概述
- 第2章Python概述
- 21Python概述
- 211Python简介
- 212Python与数据科学
- 213Python2与Python3
- 22Anaconda Python的安装、使用
- 221下载与安装
- 222使用Jupyter Notebook
- 223使用Spyder
- 224使用conda或pip管理
- 第三方库
- 第3章数据科学的Python编程基础
- 31Python的基本数据类型
- 311字符串(str)
- 312浮点数和整数(float、int)
- 313布尔值(Bool:True/False)
- 314其他
- 32Python的基本数据结构
- 321列表(list)
- 322元组(tuple)
- 323集合(set)
- 324字典(dict)
- 33Python的程序控制
- 331三种基本的编程结构简介
- 332顺承结构
- 333分支结构
- 334循环结构
- 34Python的函数与模块
- 341Python的函数
- 342Python的模块
- 35Pandas读取结构化数据
- 351读取数据
- 352写出数据
- 第4章描述性统计分析与绘图
- 41描述性统计进行数据探索
- 411变量度量类型与分布类型
- 412分类变量的统计量
- 413连续变量的分布与集中趋势
- 414连续变量的离散程度
- 415数据分布的对称与高矮
- 42制作报表与统计制图
- 43制图的步骤
- 第5章数据整合和数据清洗
- 51数据整合
- 511行列操作
- 512条件查询
- 513横向连接
- 514纵向合并
- 515排序
- 516分组汇总
- 517拆分、堆叠列
- 518赋值与条件赋值
- 52数据清洗
- 521重复值处理
- 522缺失值处理
- 523噪声值处理
- 53RFM方法在客户行为分析上的运用
- 531行为特征提取的RFM方法论
- 532使用RFM方法计算变量
- 533数据整理与汇报
- 第6章数据科学的统计推断基础
- 61基本的统计学概念
- 611总体与样本
- 612统计量
- 613点估计、区间估计和中心极限定理
- 62假设检验与单样本t检验
- 621假设检验
- 622单样本t检验
- 63双样本t检验
- 64方差分析(分类变量和连续变量关系检验)
- 641单因素方差分析
- 642多因素方差分析
- 65相关分析(两连续变量关系检验)
- 651相关系数
- 652散点矩阵图
- 66卡方检验(二分类变量关系检验)
- 661列联表
- 662卡方检验
- 第7章客户价值预测:线性回归模型与诊断
- 71线性回归
- 711简单线性回归
- 712多元线性回归
- 713多元线性回归的变量筛选
- 72线性回归诊断
- 721残差分析
- 722强影响点分析
- 723多重共线性分析
- 724小结线性回归诊断
- 73正则化方法
- 731岭回归
- 732LASSO回归
- 第8章Logistic回归构建初始信用评级
- 81Logistic回归的相关关系分析
- 82Logistic回归模型及实现
- 821Logistic回归与发生比
- 822Logistic回归的基本原理
- 823在Python中实现Logistic回归
- 83Logistic回归的极大似然估计
- 831极大似然估计的概念
- 832Logistics回归的极大似然估计
- 84模型评估
- 841模型评估方法
- 842ROC曲线的概念
- 843在Python中实现ROC曲线
- 第9章使用决策树进行初始信用评级
- 91决策树概述
- 92决策树算法
- 921ID3建树算法原理
- 922C45建树算法原理
- 923CART建树算法原理
- 924决策树的剪枝
- 93在Python中实现决策树
- 931建模
- 932模型评估
- 933决策树的可视化
- 934参数搜索调优
- 第10章神经网络
- 101神经元模型
- 102单层感知器
- 103BP神经网络
- 104多层感知器的scikitlearn代码实现
- 第11章分类器入门:最近邻域与朴素贝叶斯
- 111KNN算法
- 1111KNN算法原理
- 1112在Python中实现KNN算法
- 112朴素贝叶斯分类
- 1121贝叶斯公式
- 1122朴素贝叶斯分类原理
- 1123朴素贝叶斯的参数估计
- 1124在Python中实现朴素贝叶斯
- 第12章高级分类器:支持向量机
- 121线性可分与线性不可分
- 122线性可分支持向量机
- 1221函数间隔和几何间隔
- 1222学习策略
- 1223对偶方法求解
- 1224线性可分支持向量机例题
- 123线性支持向量机与软间隔最大化
- 124非线性支持向量机与核函数
- 1241核函数
- 1242非线性支持向量机的学习
- 1243示例与Python实现
- 125使用支持向量机的案例
- 第13章连续变量的特征选择与转换
- 131方法概述
- 132主成分分析
- 1321主成分分析简介
- 1322主成分分析原理
- 1323主成分分析的运用
- 1324在Python中实现主成分分析
- 133基于主成分的冗余变量筛选
- 134因子分析
- 1341因子分析模型
- 1342因子分析算法
- 1343在Python中实现因子分析
- 第14章客户分群与聚类
- 141聚类算法概述
- 142聚类算法基本概念
- 1421变量标准化与分布形态转换
- 1422变量的维度分析
- 143聚类模型的评估
- 144层次聚类
- 1441层次聚类原理
- 1442层次聚类在Python中的实现
- 145基于划分的聚类
- 1451kmeans聚类原理
- 1452kmeans聚类的应用场景
- 1453在Python中实现kmeans聚类
- 146基于密度的聚类
- 1461详谈基于密度聚类
- 1462在Python中实现密度聚类
- 147案例:通信客户业务使用偏好聚类
- 1471保持原始变量分布形态进行聚类
- 1472对变量进行分布形态转换后聚类
- 第15章关联规则
- 151关联规则
- 1511关联规则的一些概念
- 1512Apriori算法原理
- 1513在Python中实现关联规则
- 152序列模式
- 1521序列模式简介与概念
- 1522序列模式算法
- 1523在Python中实现序列模式
- 第16章排序模型的不平衡分类处理
- 161不平衡分类概述
- 162欠采样法
- 1621随机欠采样法
- 1622Tomek Link法
- 163过采样法
- 1631随机过采样法
- 1632SMOTE法
- 164综合采样法
- 165在Python中实现不平衡分类处理
- 第17章集成学习
- 171集成学习概述
- 172Bagging
- 1721Bagging算法实现
- 1722随机森林
- 173Boosting
- 174偏差(Bias)、方差(Variance)与集成方法
- 1741偏差与方差
- 1742Bagging与Boosting的直观理解
- 第18章时间序列建模
- 181认识时间序列
- 182效应分解法时间序列分析
- 183平稳时间序列分析ARMA模型
- 1831平稳时间序列
- 1832ARMA模型
- 1833在Python中进行AR建模
- 184非平稳时间序列分析ARIMA模型
- 1841差分与ARIMA模型
- 1842在Python中进行ARIMA建模
- 185ARIMA方法建模总结
- 第19章商业数据挖掘案例
- 191个人贷款违约预测模型
- 1911数据介绍
- 1912业务分析
- 1913数据理解
- 1914数据整理
- 1915建立分析模型
- 1916模型运用
- 1917流程回顾
- 192慈善机构精准营销案例
- 1921构造营销响应模型
- 1922构造客户价值预测模型
- 1923制订营销策略
- 1924案例过程回顾与不足
- 193旅游企业客户洞察案例
- 1931案例说明
- 1932数据预处理
- 1933使用kmeans聚类建模
- 1934对各个簇的特征进行描述
- 194个人3C产品精准营销案例
- 1941案例说明
- 1942数据预处理
- 1943建模
- 1944模型评估
- 1945下一步建议
- 附录A 数据说明
- 参考文献