00. 贝叶斯思想简介

October 17, 2020 in 贝叶斯

还记得当时读本科概率与统计时,老师完全是按照应试的方法来教的,学生们也是按照这种方法来学的,俨然高中的模样,之后本科阶段使用的不多,才没有意识到这个问题,以至于后来的一些概率和统计知识都是现学的。

零、概率论与统计学

那时没有意识到这个学科的重要性,而且觉得晦涩难懂,尤其是条件概率套公式计算时,当时有点懵圈。后来慢慢了解,其实概率论和统计学也不完全是一回事,可以理解两者互为逆过程:

  • 概率论:解决的是已知一个概率分布,然后发生的事件在满足这个分布的情况下,发生的可能性有多大,例如:男生的身高服从正态分布,然后计算男生不高于175cm的概率多大(中枪了。。)
  • 统计学:肯定是先有数据(或称样本、观测值、训练数据都是一个意思)后才会有统计的操作,因此统计学根据这些数据总结出一些特征,比如:均值、方差、偏度等。更进一步,如果假设这些数据是来自于特定的分布,则对应的这些特征就为参数——即进行了参数估计,或者在机器学习中称为“学习”。

有概率论计算概率,得出的结果是唯一的;但是从统计学来估计参数,所谓的“估计”就是存在误差,学到的“模型或分布”也就有多种,是不唯一的。即对于同一个问题,不同的假设和参数估计方法,也会有不同的模型,关键是哪种模型最能准确描述该数据,或者根据该模型预测未来的数据。

一、衡量不确定性——概率

概率作为描述不确定性的一种方法,人类一直以来对于不确定性都充满恐惧,由此,有人宁可稳赚100元,也不愿意有50%的概率去赚1000,虽然从期望的角度看,理性人显然应该选择后者。

还有最近跟师姐聊找工作的事情,显然去稳定的国企是一个优先的选择(可能确实比较好),但是从另一个角度也反应了人们对于不确定的厌恶。

这种不确定深刻影响人们,当西方的学者用定量的方法来衡量这种“感觉“时,我是很佩服的(不知道大别人有没有这个感觉,西方的学者总擅长用定量的方法来描述一些在我们看来很主观的东西,这种抽象的建模能力挺厉害的)。

高中时学概率的时候,一个典型的例子是:投掷一枚骰子,一点朝上的概率是多少?\(\frac{1}{6}\),此时老师还会补充一句话,在骰子均匀的前提下——这就是古典概率的含义,核心特点是等可能性,其实其中的含义未必了解的很清楚,但关键是会解题了。

古典概率,对于一个试验如果有N个等可能结果,而对于事件A有M个结果,则:

\[P(A)=\frac{M}{N}\]

这种方式,在学排列组合时用到的最多,但是如果在机器学习,大概率是遇不到这种程度的计算了。

二、贝叶斯学派的挑战

2.1 频率学派的简介

那么另一个比较常见的框架——即从频率角度解释,老师大概率会跟你说:

通过无数次独立且重复的试验,事件A出现的频率可以认为是该事件的概率,即:

\[P(A) = \lim\limits_{n \to \infty }{f_n(A)}\]
  • $f_n(A)$为第n次试验后A的频率

有了这个也开始做题了,不过要注意的是,其中有假设:*对试验有要求:无数次、独立、重复*,如果说我当美国总统的概率有多大,从频率角度没有计算,不能让美国人民陪我一起做试验吧!

所以这种方法天然有局限性:无法满足试验要求的场景不适用!

但是,由于这种思考框架只依赖于数据本身,即概率是从确定的数据中得到的,具有客观性,也被大量的采用。

2.2 贝叶斯的思考角度

当初我刚开始接触贝叶斯的时候,我觉得这是个玄学。因为先验概率理论上可以随便假设,有点过于“自由”了——这也是贝叶斯派与频率派的重大区别,当然也是被频率派的人一直攻击的“软肋”。

相对于频率派,贝叶斯派对于概率的态度是主观的,即从人的思考角度出发,由于每个人对于同一件事情掌握的信息不足,他们假设的先验也是不同的,因此得到的概率也是不同的。这一点与我们日常的日考方式一致,比如:买股票,证券的价格是random walk的,看似对于所有都一样,但是总不免有“老鼠仓“的问题,导致每个人盈利的概率大不相同。

总的来说,贝叶斯学派与频率学派的对比如下:

  Frequentist Bayesian
思想源头 从事件本身出发,认为事件是随机的,通过对随机事件的估计可以得出或估计出概率 从观察者角度出发,认为是观察者知识或信息不完备导致“不知道事件的结果”,所以有随机性,即如果知识完备,则事件没有随机性
对概率的态度 认为是客观性的,不受人类影响的,可以从分布中估计出来 认为是主观的,需要观察者自己确定信息
直观感觉 与直观感觉可能有差异 更接近人的主观感受

正是由于贝叶斯派的观点——信息不完备导致了随机性的出现,所以当观察值出现后,会立刻对于之前的假设进行修正,使之朝着正确的方向变化。这其实跟我们的人类的学习很像,当开始不了解信息时,人类的行为会很难预测,如果了解的足够多后,就会得到一定的行为模式。

三、贝叶斯的核心内容

贝叶斯的核心内容,显然是贝叶斯定理。之后所有的贝叶斯推断、朴素贝叶斯、贝叶斯网络、甚至概率图模型,都是以这个为基础的。

刚开始接触贝叶斯的时候,觉得贝叶斯定理不就是把条件概率变换一下形式,就成定理了?

其实后来,发现其实这种变换,其实使得计算变成了可能,因为学条件概率时,老师大概率是用韦恩图告诉你,

\[P(A|B) = \frac{P(A \cap B)}{P(B)}\]

但是,问题是$P(A \cap B)$很难求解,尤其是在连续随机变量的情况下。因此,贝叶斯定理转换如下:

\[P(A | B) = \frac{P(B|A) P(A)}{P(B)}\]

其中:

  • $P(A)$即我们可以自己假设的先验概率,大部分情况下都是为了计算方便假设一个共轭分布的先验;
  • 里边$B$为已知的条件,实际中往往是观测值或者训练数据,即可以用来修正对于$P(A)$的假设的证据。

四、总结

本节是作为贝叶斯统计的这本书的一个前言介绍,希望可以厘清其中概念之间的一些关系。

四、参考资料:

  1. 贝叶斯统计

  2. 什么是概率?

  3. 共轭分布是什么

  4. 理解贝叶斯定理

  5. Frequentist and Bayesian Approaches in Statistics

who am i

博主男性,姓名不便透露,人送外号糙汉,昵称糙糙,爱好健身、编码、非专业军迷,同时也是老和山职业技术学院的一名在读博士。

what is this

这个博客主要记录学习到的一些东西,包括但不限于算法、编程、机器学习等,也会包括一些生活点滴和感悟。