0%

如何预报抛硬币

抛10次硬币,已经抛了9次结果都是正面朝上,下一次是正面还是反面?

古典概率

“下一次正面和反面的概率各是0.5。因为前面不论扔了多少次硬币,其结果不会对下一次扔硬币产生影响。所以第10次扔硬币正面的概率仍是一半。”

这是很“标准”的一个答案。听起来很简单,却很有道理。这个答案背后的假设,正是古典概率的基本假设。法国数学家拉普拉斯(Laplace)提出:若一个随机试验可能的结果是有限的,且每个结果发生的可能性均等,这所有可能结果构成一个样本空间$S$,则事件$E$发生的概率为

对于抛硬币这样一个最简单的二元结果的事件,若只抛一次,样本空间$S=\{1,0\}$(以1代表正面向上,0代表反面向上)。那么正面朝上的概率$P(\{1\})=\frac{1}{1+1}=\frac{1}{2}$,同理反面朝上的概率$P(\{0\})=\frac{1}{1+1}=\frac{1}{2}$。

回到最开始的问题,若抛10次硬币,已经抛了9次结果都是正面朝上,下一次抛正面向上的概率是多少?这是一个条件概率问题。记事件$T=t$为前$t$次都抛出了正面,事件$U$为下一次抛出正面,则所求事件的概率表示为$P(U|T=9)$,这里再引入一个假设:每次抛的结果都是独立的,才能得到

现在换个问题,若抛10000次硬币,前9999次结果都是正面朝上,下一次正面的概率还会是0.5吗?要知道,连续抛9999次硬币都为正面的概率为$(\frac{1}{2})^{9999}$,比1767年普莱斯用贝叶斯论文算出的基督复活的概率还要小(后者大于1/1600000的概率为0.535)。这时候,如果请你预测下一次抛硬币的结果,你是否会动摇?是哪里出了问题呢。

贝叶斯学派

为什么掷了9999次都是正面向上?是不是这枚硬币有什么问题?难道它两面都是正面?当你开始怀疑硬币正面朝上与反面朝上的概率是否相等时,就进入了贝叶斯学派的思考领域。

贝叶斯学派认为,我们假设的“硬币掷出正反面的可能性均等”作为先验知识并不是确定的。一切先验概率随时都可以因观测到新的事件结果而修正,得到后验概率。这在现实中其实非常常见,比如描述大气运动的N-S方程在实际的预报模式中都会被简化,无法精确描述大气状态。方程是理想而美好的,但现实却很粗糙,所以需要不断调整对模式预报的置信度。相比较古典概率,贝叶斯学派更接地气,如果说古典概率是古希腊柏拉图式哲学一脉相承的产物,那么贝叶斯理论则属于实干家。

记$H$是进行一次随机试验可能的结果,$E$是已经发生的事件,那么事件$H$的概率$P(H)$可以由观测$E$而更新:

其中$P(H)$是先验概率,$P(E|H)$是在先验概率假设下事件$E$发生的条件概率,$P(E)$是所有可能情况下$E$发生的概率。

抛9999次硬币朝上后,下一次朝上的概率用贝叶斯公式计算为

$P(U)$是假设的先验概率等于$\frac{1}{2}$,在先验假设下前9999次正面朝上的概率$P(T=9999|U)=(\frac{1}{2})^{9999}$,假如硬币真的是理想硬币,那$P(T=9999)$也等于$(\frac{1}{2})^{9999}$,用贝叶斯公式算出来的后验概率$P(U|T=9999)=\frac{1}{2}$,与古典概率一致;但很可能这枚硬币存在某种瑕疵,使得掷出正面向上的可能性远远大于反面,实际的$P(T=9999)$可能接近1(假设是0.8)的话,那么后验概率$P(U|T=9999)=\frac{(\frac{1}{2})^{9999}·\frac{1}{2}}{0.8}$就接近0了。

概率的概率:Deterministic vs Stochastic

1767年普莱斯用贝叶斯论文(图1)中的方法计算了基督复活的可能性,用来反驳休谟的《论神迹》(休谟认为你可以因为神迹信宗教,但基督复活,算神话?),他给出的是“基督复活概率大于1/1600000的概率”,也就是说,概率的概率。

bayes

图1. 普莱斯选定的贝叶斯论文单行本标题页(Watson 2013)

这其实是另外一个重要观念的引入。之前计算硬币朝上事件发生的概率,我们给出了一个唯一的值$P(U)$,但如果这个概率本身就有不确定性呢?比如事先并不知道硬币正面朝上的概率,只知道硬币抛出正面概率可能为0.5,也可能为0.8,哪个可能性更大?如何描述这种可能性呢?事实上,事件$U$的概率$P(U)$可以看作一个特殊的参数,“概率的概率”可以推广到”任意未知参数的概率“,当我们无法确定一个参数的值时,就可以用概率分布描述它。这是从确定性(Deterministic)估计到随机性(Stochastic)估计的转变。

记$\theta = P(U)$,则同样的抛硬币问题用贝叶斯公式解为

此时先验概率$P(\theta)$有一个假设的概率分布,对于抛硬币过程一般用$\beta$分布来描述

那么

后验概率也是一个概率分布。