《Python数据科学指南》是一本关于Python数据分析编程入门的精彩之作。本书详细介绍了Python在数据科学中的广泛应用,并提供了60多个实用的开发技巧,帮助读者深入探索Python及其强大的数据科学能力。无论是初学者还是有一定经验的开发者,都能从本书中获得丰富的知识和实践经验。无论是数据预处理、数据可视化,还是机器学习和深度学习等领域,本书都提供了丰富的案例和代码示例,帮助读者理解和掌握相关概念和技术。这本书是学习Python数据科学的不可错过的指南,让人豁然开朗,收获颇丰。
Python数据科学指南 电子书封面
内容节选
容器(Container)与集合(Collections)
元组(Tuple)
元组:与字符串一样,是有序的序列,不可以改变内容
基本操作:连接、切片都与字符串保持一致;
序列解包:也称多重赋值;
支持迭代器协议,支持 for 循环
列表(List)
列表:也是序列类型的对象,但是可以改变列表中的内容;
基本操作:连接、切片都与字符串保持一致;
更改操作:
pop():删除列表中的数据,并将删除的数据返回;
insert():插入数据;
append():追加数据;
extend():拼接列表;
引用传递:所有的赋值都只是引用的传递,并没有创建新的数据;
list[:]:浅拷贝,只拷贝第一层引用的数据;
deepcopy():深拷贝,拷贝所有引用的数据;
列表解析式:构造列表的方式,将一个函数作用到整个列表中每个元素的方式;[x for x in range(1,3)]
字典(Dictionary)
字典在其他语言中被称为散列表,由 key:value 对通过{}组成的无序结构。
常用的函数:
get(key):通过 key 取得对应的 value;还可以通过链式调用取值;
dict(list):构建新的字典;
dict.keys():获取字典的 keys 迭代;
dict.values():获取字典的 values 迭代;
dict.items():获取字典的 key:value 对的迭代;
dict.pop(key):取出指定关键字的值;
dict.update(key):更新字典中对应的 key 中的 value;
集合(Collections)
namedtuple():具名元组。
Counter():累加器,可以用来做经典的 word count;
defaultdict():为字典设定一个默认值;
OrderedDict():使字典有序;
内容介绍
Python作为一种高级程序设计语言,凭借其简洁、易读及可扩展性日渐成为程序设计领域备受推崇的语言,并成为数据科学家的必读之一。
《Python数据科学指南》详细介绍了Python在数据科学中的应用,包括数据探索、数据分析与挖掘、机器学习、大规模机器学习等主题。每一章都为读者提供了足够的数学知识和代码示例来理解不同深度的算法功能,帮助读者更好地掌握各个知识点。
本书内容结构清晰,示例完整,无论是数据科学领域的新手,还是经验丰富的数据科学家都将从中获益。
目录
- 第1章 Python在数据科学中的应用 1
- 第2章 Python环境 55
- 第3章 数据分析——探索与争鸣 83
- 第4章 数据分析——深入理解 146
- 第5章 数据挖掘——海底捞针 177
- 第6章 机器学习1 217
- 第7章 机器学习2 253
- 第8章 集成方法 296
- 第9章 生长树 331
- 第10章 大规模机器学习——在线学习 359
ython拥有着极其丰富且稳定的数据科学工具环境。遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke)。在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林。你可能会问,很多现有的PyData包推荐列表怎么样?我觉得对新手来说提供太多的选择可能会受不了。因此这里不会提供推荐列表,我要讨论的范围很窄,只集中于10%的工具,但它们可以完成你90%的工作。当你掌握这些必要的工具后,你就可以浏览PyData工具的长列表了,选择自己接下来要使用的。值得一提的是,我介绍的这几个工具可以让你完成一个数据科学家日常的绝大部分工作了(比如数据输入输出、数据再加工以及数据分析)。安装经常会有人过来和我说“我听说Python很擅长处理数据科学,所以我想学一下。但是安装Python和所有其他模块就耗费了两天时间”。安装Python是很合理的,因为你要用它,但是当你不知道真正需要哪些其他工具时就手动安装所有的PyData工具,这确实是一项大工程啊。所以我强烈反对这样做。幸运的是,Continuum的一伙人创建了Python发行版Anaconda,它包含了大部分PyData工具包。默认没有的模块也可以轻松地通过GUI安装。这个发行版适用于所有主流平台。这样无需耗费两天安装了,可以直接使用它。IPython NotebookPython安装后,大部分人直接启动并开始学习。这很合理,但遗憾的是又大错特错了。我没见过直接在Python命令行中运行Python科学计算环境的(因人而异)。相反,可以使用IPython,特别是IPython Notebook,它们都是特别强大的Python shell,被广泛地使用在PyData领域中。我强烈建议你直接使用IPython Notebook(IPyNB)而不用为其他事所烦扰,你不会后悔的。简而言之,IPyNB是一个通过浏览器访问的Python shell。它允许你混合编辑代码、文本和图形(甚至是交互对象)。本文就是在IPyNB中完成的。在Python的会议中,几乎所有的演讲都使用IPython Notebook。Anaconda中预装了IPyNB,可以直接使用。