《计算统计(第2版)》是一本提供统计计算理论和实践的完全指南,涵盖了现代和经典统计的大部分论题。这本书详细介绍了优化、积分、蒙特卡罗方法、自助法、密度估计和光滑等方面的内容,为读者提供了丰富全面的统计学知识。书中不仅理论知识详尽,而且给出了大量的实例和应用,帮助读者将理论应用到实践中。无论是对于初学者还是对于已经有一定统计基础的人来说,都是一本不可多得的参考书籍。如果你对计算统计或统计学有兴趣,不妨下载并阅读这本书,它一定会给你带来很大的收获。
计算统计 电子书封面
内容节选
统计学习
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statical machine learning)。
统计学习的方法是基于数据构建统计模型从而对数据进行预测和分析。统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。
统计学习方法包括假设空间、模型选择的准则、模型学习的算法,这些统称为统计学习方法的三要素:模型(Model)、策略(Strategy)、算法(Algorithm)。
实现统计学习方法的步骤如下:
得到有限的训练数据集合
确定包含所有可能的模型的假设空间,即学习模型的集合
确定模型选择的准则(什么是最优模型的标准),即学习的策略
实现求解最优模型的算法(如何获取最优模型),即学习的算法
通过学习方法选择最优模型
利用学习到的最优模型对新数据进行预测和分析
内容介绍
现代统计计算完全指南,玩转数据科学必备。
计算统计(第2版)提供统计计算理论和实践的完全指南。第2版涵盖了现代和经典统计的大部分论题,包括优化、积分、蒙特卡罗方法、自助法、密度估计和光滑。不但从概念上通过逐步描述解释算法,并且通过例子和习题进行详细的阐述。
第2版重要的特点包括:
•例子来自于各个领域的实际应用,包括遗传学、生态学、经济学、网络系统、生物学和药学。
•解释了为什么计算方法是大多数统计方法的重要组成部分,比如贝叶斯模型、线性和广义线性模型、随机效应模型、生存模型和隐马尔科夫模型。
•进一步扩展覆盖了马尔科夫链蒙特卡洛方法。
•增加新的论题,比如序贯抽样方法、粒子滤波、无梯度优化、基于数据的自助法和蒙特卡洛方法。
•新的习题和例子能帮助读者训练应用计算方法解决众多领域内统计问题的能力。
•本书的网站给出了R语言扩展包并提供了数据和代码。
本书非常适合作为高年级本科生或者研究生的统计计算课教材,也可以作为实际统计工作者的参考。
目录
- 第1章 回顾
- 第一部分优化
- 第2章 优化与求解非线性方程组
- 第3章 组合优化
- 第4章 EM优化方法
- 第二部分积分和模拟
- 第5章 数值积分
- 第6章 模拟与Monte Carlo积分
- 第7章 MCMC方法
- 第8章 MCMC中的深入论题
- 第三部分Bootstrapping
- 第9章 Bootstrapping
- 第四部分 密度估计和光滑方法
- 第10章 非参密度估计
- 第11章 二元光滑方法
- 第12章 多元光滑方法
- · · · · · ·
生成模型与判别模型 监督学习方法可以分为生成方法(generative approach)和判别方法(discriminative approach)。对应的模型的即为生成模型和判别模型。 生成模型是指由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,如:朴素贝叶斯和隐马尔可夫模型等。优点是可以得到联合概率分布,收敛速度更快,当存在隐变量时,仍可以使用。 判别模型是指由数据直接学习决策函数f(X)或条件概率分布P(Y|X)作为预测模型,如:KNN,感知机,决策树,逻辑回归,支持向量等。优点是学习准确率比较高,便于对数据进行抽象,可以简化学习问题。 判别模型与生成模型的最重要的不同是,训练时的目标不同,判别模型主要优化条件概率分布,使得x,y更加对应,在分类中就是更可分。而生成模型主要是优化训练数据的联合分布概率。而同时,生成模型可以通过贝叶斯得到判别模型,但判别模型无法得到生成模型。
监督学习是学习一个模型,使模型能够对任意的输入,对其相应的输出做出一个好的预测。 基本概念 训练数据(training data):一个给定的、有限的、用于学习的数据。 输入空间(input space):输入的可能取值的集合; 特征空间(feature space):每个具体的输入是一个实例,通常由特征向量表示。特征向量存在的空间称为特征空间。(有时输入空间和特征空间为相同空间,有时则不同,则需将实例从输入空间映射到特征空间),模型是定义在特征空间的。 输出空间(output space):输出的可能取值的集合; 训练集:输入(或特征向量)与输出对组成。 输入与输出对又称为样本。 联合概率分布:监督学习假设输入和输出的随机变量X和Y遵循联合概率分布P(X,Y),P(X,Y)表示分布函数或分布密度函数。 训练数据和测试数据是依据P(X,Y)独立同分布产生的。X 和 Y 具有联合分布的假设是监督学习关于数据的基本假设。 假设空间(hypothesis space):模型属于输入空间到输出空间的映射的集合,这个集合就是假设空间。模型可以是概率模型也可以使非概率模型。由P(Y|X)或决策函数 Y = f(X)表示。具体的用小写字母表示。 (PS.输入、输出变量用大写字母表示,输入输出变量所取得的值用小写字母表示。)