Python数据科学:技术详解与商业实践
读者评价
虽然我不是搞金融数据的,但这本书上的很多思路和方法却是可以借鉴的,希望以后能够多一些研究非金融类的其它行业的数据挖掘的人
课程和书同步的,上课免费拿了一本~课程讲的很详细,书就略过了一些琐碎的知识点了。非常全面,感觉是今年在数据方面特别好的内容了。非常推荐
近几年Python成为数据科学行业中大受欢迎的编程语言,初看了一下目前录,这本书为总结一下数据科学家和工程师几个最实用的python库以各种函数。如果你是正在学习Python的学生,我想你能从书中找到学习的重心。 关键是这几个作者都还是蛮牛的数据科学专家。
客户洞察是分析型客户关系管理的核心,是实现客户智能的必要手段,其旨在增加CRM系统的商业分析与辅助决策能力。分析型CRM需要整合外部客户数据、渠道数据和大量交易数据,并从中提取出隐含有用的信息,这便是数据科学的用武之地。客户生命周期是客户洞察中最常用的分析工具,企业对初次接触的客户了解甚少,随着交往时间的延长,对其洞察越深入,分析主题越丰富。本课程就按照客户产品生命周期逐步展开数据科学的不同议题
内容介绍
本书共19章,第1章介绍数据科学中涉及的基本领域;第2~3章介绍与数据工作紧密相关的Python语言基础;第4章讲解描述性统计分析在宏观业务领域的分析;第5章讲解数据规整、清洗的重要技能;第6章介绍数据科学领域实用的四大统计检验;第7章讲解当被解释变量为连续变量时,如何使用线性回归作预测;第8章讲解使用逻辑回归作评分卡模型;第9章讲解另外一个可解释模型——决策树。第10~12章分别讲解了BP神经网络、朴素贝叶斯、近邻域、支持向量机的原理和在决策类模型中的运用;第13~14章作为一个整体讲解商业分析场景下的信息压缩;第15章以产品推荐作为案例,讲解发现事件与事件伴生关系的关联分析和序列分析算法;第16章使用欺诈识别案例讲解当被解释变量分布极 端不平衡时的处理方法;第17章继续使用欺诈识别案例讲解集成学习算法;第18章讲解了使用效应分解和ARIMA方法实现宏观业务指标预测;第19章用案例展现了分类和聚类模型的CRISP-DM和SEMMA流程。
目录
- 前言
- 第1章数据科学家的武器库
- 1.1数据科学的基本概念
- 1.2数理统计技术
- 1.2.1描述性统计分析
- 1.2.2统计推断与统计建模
- 1.3数据挖掘的技术与方法
- 1.4描述性数据挖掘算法示例
- 1.4.1聚类分析——客户细分
- 1.4.2关联规则分析
- 1.5预测性数据挖掘算法示例
- 1.5.1决策树
- 1.5.2KNN算法
- 1.5.3Logistic回归
- 1.5.4神经网络
- 1.5.5支持向量机
- 1.5.6集成学习
- 1.5.7预测类模型讲解
- 1.5.8预测类模型评估概述
- 第2章Python概述
- 2.1Python概述
- 2.1.1Python简介
- 2.1.2Python与数据科学
- 2.1.3Python2与Python3
- 2.2Anaconda Python的安装、使用
- 2.2.1下载与安装
- 2.2.2使用Jupyter Notebook
- 2.2.3使用Spyder
- 2.2.4使用conda或pip管理
- 第三方库
- 第3章数据科学的Python编程基础
- 3.1Python的基本数据类型
- 3.1.1字符串(str)
- 3.1.2浮点数和整数(float、int)
- 3.1.3布尔值(Bool:True/False)
- 3.1.4其他
- 3.2Python的基本数据结构
- 3.2.1列表(list)
- 3.2.2元组(tuple)
- 3.2.3集合(set)
- 3.2.4字典(dict)
- 3.3Python的程序控制
- 3.3.1三种基本的编程结构简介
- 3.3.2顺承结构
- 3.3.3分支结构
- 3.3.4循环结构
- 3.4Python的函数与模块
- 3.4.1Python的函数
- 3.4.2Python的模块
- 3.5Pandas读取结构化数据
- 3.5.1读取数据
- 3.5.2写出数据
- 第4章描述性统计分析与绘图
- 4.1描述性统计进行数据探索
- 4.1.1变量度量类型与分布类型
- 4.1.2分类变量的统计量
- 4.1.3连续变量的分布与集中趋势
- 4.1.4连续变量的离散程度
- 4.1.5数据分布的对称与高矮
- 4.2制作报表与统计制图
- 4.3制图的步骤
- 第5章数据整合和数据清洗
- 5.1数据整合
- 5.1.1行列操作
- 5.1.2条件查询
- 5.1.3横向连接
- 5.1.4纵向合并
- 5.1.5排序
- 5.1.6分组汇总
- 5.1.7拆分、堆叠列
- 5.1.8赋值与条件赋值
- 5.2数据清洗
- 5.2.1重复值处理
- 5.2.2缺失值处理
- 5.2.3噪声值处理
- 5.3RFM方法在客户行为分析上的运用
- 5.3.1行为特征提取的RFM方法论
- 5.3.2使用RFM方法计算变量
- 5.3.3数据整理与汇报
- 第6章数据科学的统计推断基础
- 6.1基本的统计学概念
- 6.1.1总体与样本
- 6.1.2统计量
- 6.1.3点估计、区间估计和中心极限定理
- 6.2假设检验与单样本t检验
- 6.2.1假设检验
- 6.2.2单样本t检验
- 6.3双样本t检验
- 6.4方差分析(分类变量和连续变量关系检验)
- 6.4.1单因素方差分析
- 6.4.2多因素方差分析
- 6.5相关分析(两连续变量关系检验)
- 6.5.1相关系数
- 6.5.2散点矩阵图
- 6.6卡方检验(二分类变量关系检验)
- 6.6.1列联表
- 6.6.2卡方检验
- 第7章客户价值预测:线性回归模型与诊断
- 7.1线性回归
- 7.1.1简单线性回归
- 7.1.2多元线性回归
- 7.1.3多元线性回归的变量筛选
- 7.2线性回归诊断
- 7.2.1残差分析
- 7.2.2强影响点分析
- 7.2.3多重共线性分析
- 7.2.4小结线性回归诊断
- 7.3正则化方法
- 7.3.1岭回归
- 7.3.2LASSO回归
- 第8章Logistic回归构建初始信用评级
- 8.1Logistic回归的相关关系分析
- 8.2Logistic回归模型及实现
- 8.2.1Logistic回归与发生比
- 8.2.2Logistic回归的基本原理
- 8.2.3在Python中实现Logistic回归
- 8.3Logistic回归的极大似然估计
- 8.3.1极大似然估计的概念
- 8.3.2Logistics回归的极大似然估计
- 8.4模型评估
- 8.4.1模型评估方法
- 8.4.2ROC曲线的概念
- 8.4.3在Python中实现ROC曲线
- 第9章使用决策树进行初始信用评级
- 9.1决策树概述
- 9.2决策树算法
- 9.2.1ID3建树算法原理
- 9.2.2C4.5建树算法原理
- 9.2.3CART建树算法原理
- 9.2.4决策树的剪枝
- 9.3在Python中实现决策树
- 9.3.1建模
- 9.3.2模型评估
- 9.3.3决策树的可视化
- 9.3.4参数搜索调优
- 第10章神经网络
- 10.1神经元模型
- 10.2单层感知器
- 10.3BP神经网络
- 10.4多层感知器的scikitlearn代码实现
- 第11章分类器入门:最近邻域与朴素贝叶斯
- 11.1KNN算法
- 11.1.1KNN算法原理
- 11.1.2在Python中实现KNN算法
- 11.2朴素贝叶斯分类
- 11.2.1贝叶斯公式
- 11.2.2朴素贝叶斯分类原理
- 11.2.3朴素贝叶斯的参数估计
- 11.2.4在Python中实现朴素贝叶斯
- 第12章高级分类器:支持向量机
- 12.1线性可分与线性不可分
- 12.2线性可分支持向量机
- 12.2.1函数间隔和几何间隔
- 12.2.2学习策略
- 12.2.3对偶方法求解
- 12.2.4线性可分支持向量机例题
- 12.3线性支持向量机与软间隔最大化
- 12.4非线性支持向量机与核函数
- 12.4.1核函数
- 12.4.2非线性支持向量机的学习
- 12.4.3示例与Python实现
- 12.5使用支持向量机的案例
- 第13章连续变量的特征选择与转换
- 13.1方法概述
- 13.2主成分分析
- 13.2.1主成分分析简介
- 13.2.2主成分分析原理
- 13.2.3主成分分析的运用
- 13.2.4在Python中实现主成分分析
- 13.3基于主成分的冗余变量筛选
- 13.4因子分析
- 13.4.1因子分析模型
- 13.4.2因子分析算法
- 13.4.3在Python中实现因子分析
- 第14章客户分群与聚类
- 14.1聚类算法概述
- 14.2聚类算法基本概念
- 14.2.1变量标准化与分布形态转换
- 14.2.2变量的维度分析
- 14.3聚类模型的评估
- 14.4层次聚类
- 14.4.1层次聚类原理
- 14.4.2层次聚类在Python中的实现
- 14.5基于划分的聚类
- 14.5.1kmeans聚类原理
- 14.5.2kmeans聚类