内容简介
数据科学家是目前热门的职业之一。本书全面介绍了成为合格数据科学家所需的知识、技能和工作流程,是一本内容全面的实用性技术图书。本书分为13章,其中~3章介绍数据科学;第4~8章介绍数学知识,包括统计学和概率论;第9章介绍数据可视化;0~12章介绍机器学习;3章介绍案例。各个章节内容均由浅入深,同时通过案例和Python代码,使读者掌握实战技能。本书适合有志于成为数据科学家的师生或业界新手,同时也适合经验丰富的职场老手参考。
作者简介
Sinan Ozdemir是一名数据科学家、创业者和教育工作者。Sinan的学术生涯在约翰·霍普金斯大学(The Johns Hopkins University)渡过,主修数学专业。随后他从事教育事业,曾经在约翰·霍普金斯大学和General Assembly公司举办多次数据科学讲座。在此之后,他创立了旨在通过人工智能技术和数据科学力量帮助企业销售团队的创业公司Legion Analytics。
张星辰,北京荣之联科技股份有限公司BI 技术顾问,毕业于重庆邮电大学,具有5年数据相关工作经验,熟悉商业智能和数据可视化,通过了微软数据科学专业认证。
目录
- 第1章如何听起来像数据科学家1
- 1.1什么是数据科学3
- 1.1.1基本的专业术语3
- 1.1.2为什么是数据科学4
- 1.1.3案例:西格玛科技公司4
- 1.2数据科学韦恩图5
- 1.2.1数学7
- 1.2.2计算机编程8
- 1.2.3为什么是Python9
- 1.2.4领域知识13
- 1.3更多的专业术语14
- 1.4数据科学案例15
- 1.4.1案例:自动审核政府文件16
- 1.4.2案例:市场营销费用17
- 1.4.3案例:数据科学家的岗位描述18
- 1.5总结21
- 第2章数据的类型23
- 2.1数据的“味道”23
- 2.2为什么要进行区分24
- 2.3结构化数据和非结构化数据24
- 2.4定量数据和定性数据28
- 2.4.1案例:咖啡店数据28
- 2.4.2案例:世界酒精消费量30
- 2.4.3更深入的研究32
- 2.5简单小结33
- 2.6数据的4个尺度33
- 2.6.1定类尺度34
- 2.6.2定序尺度35
- 2.6.3定距尺度37
- 2.6.4定比尺度41
- 2.7数据是旁观者的眼睛42
- 2.8总结43
- 第3章数据科学的5个步骤44
- 3.1数据科学简介44
- 3.25个步骤概览45
- 3.2.1提出有意思的问题45
- 3.2.2获取数据45
- 3.2.3探索数据45
- 3.2.4数据建模46
- 3.2.5可视化和分享结果46
- 3.3探索数据46
- 3.3.1数据探索的基本问题47
- 3.3.2数据集1:Yelp点评数据48
- 3.3.3数据集2:泰坦尼克56
- 3.4总结60
- 第4章基本的数学知识61
- 4.1数学学科61
- 4.2基本的数学符号和术语62
- 4.2.1向量和矩阵62
- 4.2.2算术符号65
- 4.2.3图表68
- 4.2.4指数/对数69
- 4.2.5集合论71
- 4.3线性代数74
- 4.4总结78
- 第5章概率论入门:不可能,还是不太可能79
- 5.1基本的定义79
- 5.2概率80
- 5.3贝叶斯VS频率论81
- 5.4复合事件84
- 5.5条件概率86
- 5.6概率定理87
- 5.6.1加法定理87
- 5.6.2互斥性88
- 5.6.3乘法定理88
- 5.6.4独立性89
- 5.6.5互补事件89
- 5.7再进一步91
- 5.8总结92
- 第6章高等概率论93
- 6.1互补事件93
- 6.2重温贝叶斯思想94
- 6.2.1贝叶斯定理94
- 6.2.2贝叶斯定理的更多应用97
- 6.3随机变量100
- 6.3.1离散型随机变量101
- 6.3.2连续型随机变量110
- 6.4总结113
- 第7章统计学入门114
- 7.1什么是统计学114
- 7.2如何获取数据115
- 7.3数据抽样118
- 7.3.1概率抽样118
- 7.3.2随机抽样119
- 7.3.3不等概率抽样120
- 7.4如何描述统计量120
- 7.4.1测度中心120
- 7.4.2变异测度121
- 7.4.3变异系数125
- 7.4.4相对位置测度126
- 7.5经验法则132
- 7.6总结134
- 第8章高等统计学135
- 8.1点估计135
- 8.2抽样分布139
- 8.3置信区间142
- 8.4假设检验145
- 8.4.1实施假设检验146
- 8.4.2单样本t检验147
- 8.4.3I型错误和II型错误151
- 8.4.4分类变量的假设检验151
- 8.5总结155
- 第9章交流数据156
- 9.1为什么交流数据很重要156
- 9.2识别有效和无效的可视化157
- 9.2.1散点图157
- 9.2.2折线图159
- 9.2.3条形图160
- 9.2.4直方图162
- 9.2.5箱形图163
- 9.3当图表和统计在说谎166
- 9.3.1相关性VS因果关系166
- 9.3.2辛普森悖论168
- 9.3.3如果相关性不等于因果关系,那什么导致了因果关系169
- 9.4语言交流170
- 9.4.1关键在于讲故事170
- 9.4.2正式场合的注意事项170
- 9.5为什么演示、如何演示和演示策略171
- 9.6总结172
- 第10章机器学习精要:你的烤箱在学习吗173
- 10.1什么是机器学习173
- 10.2机器学习并不完美175
- 10.3机器学习如何工作176
- 10.4机器学习的分类176
- 10.4.1监督学习177
- 10.4.2无监督学习182
- 10.4.3强化学习183
- 10.5统计模型如何纳入以上分类186
- 10.6线性回归186
- 10.6.1增加更多预测因子191
- 10.6.2回归指标193
- 10.7Logistic回归199
- 10.8概率、几率和对数几率201
- 10.9哑变量206
- 10.10总结210
- 第11章树上无预言,真的吗212
- 11.1朴素贝叶斯分类212
- 11.2决策树220
- 11.2.1计算机如何生成回归树221
- 11.2.2计算机如何拟合分类树222
- 11.3无监督学习226
- 11.3.1无监督学习的使用场景226
- 11.3.2K均值聚类227
- 11.3.3如何选择最佳的K值,并对簇进行评价233
- 11.4特征提取和主成分分析235
- 11.5总结246
- 第12章超越精要247
- 12.1偏差-方差权衡247
- 12.1.1偏差导致的误差248
- 12.1.2方差导致的误差248
- 12.1.3两种极端的偏差-方差权衡情况255
- 12.1.4偏差-方差如何组成误差函数256
- 12.2K层交叉验证257
- 12.3网格搜索算法261
- 12.4集成技术266
- 12.4.1随机森林268
- 12.4.2随机森林VS决策树273
- 12.5神经网络274
- 12.6总结279
- 第13章案例280
- 13.1案例1:基于社交媒体预测股票价格280
- 13.1.1文本情感分析280
- 13.1.2探索性数据分析281
- 13.1.3超越案例294
- 13.2案例2:为什么有些人会对配偶撒谎295
- 13.3案例3:初试TensorFlow301
- 13.4总结311