当前位置:主页 > 书籍配套资源 > 数据科学配套资源
《数据科学导论:Python语言实现》源代码

《数据科学导论:Python语言实现》源代码

  • 更新:2022-03-23
  • 大小:1.26 MB
  • 类别:数据科学
  • 作者:阿尔贝托·博斯凯蒂
  • 出版:机械工业出版社
  • 格式:PDF

  • 资源介绍
  • 相关推荐

我们正处于一个快速发展的信息化时代,人们每天都在生产着各种类型的数据,与此同时,数据也在极大地影响着我们的生活。于是,数据成为与能源同等重要的资源。掌握了数据获取、处理、建模、分析等过程的理论和方法,无疑就是掌握了打开这种新型资源的钥匙。
数据科学是融合多种学科的新的知识领域,一般要求学习者或从业者具备统计学等数学知识、计算机相关学科专业知识和特定业务领域的知识。目前,数据科学领域的研究和应用备受瞩目,吸引了众多研究者、实践者和从业者的参与,他们都在积极探索数据科学的基本理论、研究方法和技术应用。
工欲善其事,必先利其器。那么,什么才是数据科学家最值得信赖的专业工具呢?Python无疑是众多数据分析语言中最适合的一个。Python是一种通用的、解释性和面向对象的语言,具有强大的数据分析和机器学习软件包,为解决各种数据科学问题提供了快速、可靠、成熟的开发环境。它易学易用,便于快速开发,有很好的交互式体验,已经征服了科学界,堪称解决数据科学问题的神器。

本书介绍了进行数据科学分析和开发的所有关键要点,包括Python软件及相关工具包的安装和使用;不仅包含数据加载、运算和改写等基本数据准备过程,还有特征选择、维数约简等高级数据操作方法;建立了由训练、验证、测试等过程组成的数据科学流程,结合示例深入浅出地讲解了多种机器学习算法;介绍了基于图模型的社会网络创建、分析和处理方法;最后是数据分析结果的可视化及相关工具使用方法的介绍。

本书作者是两位意大利数据科学专家,他们长期从事与数据科学相关的教学和科研工作,在Python社区、社交网络上也很活跃,发表了多篇学术论文和著作,对数据科学相关人员影响很大。本书是作者多年实践经验的总结,具有以下特点:1)循序渐进,深入浅出,让初学者不畏惧,让从业者得要领。2)理论与实践相结合,几乎所有算法和理论都辅以简洁的实例和说明,通过简单的几行代码即可验证。3)深入理解数据科学概念,轻松进行理论扩展,快速建立自己的工程,使读者做到学以致用,促进多种形式的科学研究和应用开发。
无论是作为数据科学和机器学习理论研究者的参考书,还是作为使用Python进行数据科学应用开发人员的工具书,抑或作为有志成为数据科学家的初学者的指导书,本书都能提供非常有价值的参考。本书还可以作为高等院校相关学科本科生或研究生的学习教材,特别适合从事数据科学、信息处理和机器学习等方向的研究生进行学习和参考。

本书第4章由河南工业大学信息科学与工程学院靳小波博士翻译,其余章节由河南工业大学信息科学与工程学院于俊伟博士翻译。由于译者水平有限,加之时间仓促,错误和疏漏在所难免,恳请读者批评指正。

本书的翻译工作受到国家自然科学基金项目(61300123)的资助。还要感谢机械工业出版社华章公司的编辑为本书出版付出的辛勤劳动。

最后,要特别感谢爱人刘楠及女儿Cynthia对我工作的理解和支持!

封面图

目录

  • 译者序
  • 前言
  • 第1章新手上路1
  • 1.1数据科学与Python简介1
  • 1.2Python的安装2
  • 1.2.1Python 2还是Python 33
  • 1.2.2分步安装3
  • 1.2.3Python核心工具包一瞥4
  • 1.2.4工具包的安装7
  • 1.2.5工具包升级9
  • 1.3科学计算发行版9
  • 1.3.1Anaconda10
  • 1.3.2Enthought Canopy10
  • 1.3.3PythonXY10
  • 1.3.4WinPython10
  • 1.4IPython简介10
  • 1.4.1IPython Notebook12
  • 1.4.2本书使用的数据集和代码18
  • 1.5小结25
  • 第2章数据改写26
  • 2.1数据科学过程26
  • 2.2使用pandas进行数据加载与预处理27
  • 2.2.1数据快捷加载27
  • 2.2.2处理问题数据30
  • 2.2.3处理大数据集32
  • 2.2.4访问其他数据格式36
  • 2.2.5数据预处理37
  • 2.2.6数据选择39
  • 2.3使用分类数据和文本数据41
  • 2.4使用NumPy进行数据处理49
  • 2.4.1NumPy中的N维数组49
  • 2.4.2NumPy ndarray对象基础50
  • 2.5创建NumPy数组50
  • 2.5.1从列表到一维数组50
  • 2.5.2控制内存大小51
  • 2.5.3异构列表52
  • 2.5.4从列表到多维数组53
  • 2.5.5改变数组大小54
  • 2.5.6利用NumPy函数生成数组56
  • 2.5.7直接从文件中获得数组57
  • 2.5.8从pandas提取数据57
  • 2.6NumPy快速操作和计算58
  • 2.6.1矩阵运算60
  • 2.6.2NumPy数组切片和索引61
  • 2.6.3NumPy数组堆叠63
  • 2.7小结65
  • 第3章数据科学流程66
  • 3.1EDA简介66
  • 3.2特征创建70
  • 3.3维数约简72
  • 3.3.1协方差矩阵72
  • 3.3.2主成分分析73
  • 3.3.3一种用于大数据的PCA变型—Randomized PCA76
  • 3.3.4潜在因素分析77
  • 3.3.5线性判别分析77
  • 3.3.6潜在语义分析78
  • 3.3.7独立成分分析78
  • 3.3.8核主成分分析78
  • 3.3.9受限玻耳兹曼机80
  • 3.4异常检测和处理81
  • 3.4.1单变量异常检测82
  • 3.4.2EllipticEnvelope83
  • 3.4.3OneClassSVM87
  • 3.5评分函数90
  • 3.5.1多标号分类90
  • 3.5.2二值分类92
  • 3.5.3回归93
  • 3.6测试和验证93
  • 3.7交叉验证97
  • 3.7.1使用交叉验证迭代器99
  • 3.7.2采样和自举方法100
  • 3.8超参数优化102
  • 3.8.1建立自定义评分函数104
  • 3.8.2减少网格搜索时间106
  • 3.9特征选择108
  • 3.9.1单变量选择108
  • 3.9.2递归消除110
  • 3.9.3稳定性选择与基于L1的选择111
  • 3.10小结112
  • 第4章机器学习113
  • 4.1线性和逻辑回归113
  • 4.2朴素贝叶斯116
  • 4.3K近邻118
  • 4.4高级非线性算法119
  • 4.4.1基于SVM的分类算法120
  • 4.4.2基于SVM的回归算法122
  • 4.4.3调整SVM123
  • 4.5组合策略124
  • 4.5.1基于随机样本的粘合策略125
  • 4.5.2基于弱组合的分袋策略125
  • 4.5.3随机子空间和随机分片126
  • 4.5.4模型序列—AdaBoost127
  • 4.5.5梯度树提升128
  • 4.5.6处理大数据129
  • 4.6自然语言处理一瞥136
  • 4.6.1词语分词136
  • 4.6.2词干提取137
  • 4.6.3词性标注137
  • 4.6.4命名实体识别138
  • 4.6.5停止词139
  • 4.6.6一个完整的数据科学示例—文本分类140
  • 4.7无监督学习概述141
  • 4.8小结146
  • 第5章社会网络分析147
  • 5.1图论简介147
  • 5.2图的算法152
  • 5.3图的加载、输出和采样157
  • 5.4小结160
  • 第6章可视化161
  • 6.1matplotlib基础介绍161
  • 6.1.1曲线绘图162
  • 6.1.2绘制分块图163
  • 6.1.3散点图164
  • 6.1.4直方图165
  • 6.1.5柱状图166
  • 6.1.6图像可视化167
  • 6.2pandas的几个图形示例169
  • 6.2.1箱线图与直方图170
  • 6.2.2散点图171
  • 6.2.3平行坐标173
  • 6.3高级数据学习表示174
  • 6.3.1学习曲线174
  • 6.3.2验证曲线176
  • 6.3.3特征重要性177
  • 6.3.4GBT部分依赖关系图179
  • 6.4小结180

资源下载

资源下载地址1:https://pan.baidu.com/s/1V9Fl0UYJwtO_naFW-XBEmg

相关资源

网友留言