# 最近在看一本书The Book of Why,中文名译作《为什么》,作者是Judea Pearl,其中有一个知识点觉得有必要先分享给大家。

## 贝叶斯公式
**贝叶斯公式**,这个名词大部分人可能没有听过,但我说一些它的应用,你可能就知道它了。
它在日常生活被常用于语音识别软件、垃圾邮件过滤、天气预测、油井的勘探等。而在马航事件中,烧伤尸体的身份辨认也是通过基于贝叶斯公式的软件完成的。
贝叶斯公式的具体形式是这样的:
P(D | T) =(P(T | D)/P(T))\*P(D)
_注:公式这一部分看不懂不影响对后续的理解,但为了方便想深入了解的读者,有关公式的更多细节放在文末的附录部分。_
我们可以这么理解这个形式的贝叶斯公式:**修正的信念=新的证据+之前的信念**。
贝叶斯公式与绝大多数的统计学公式不同,它允许主观因素的代入,而不是仅仅客观地收集和分析数据。在_The Book of Why_这本书中,作者论述了为什么仅仅客观地收集和分析数据不能回答高级的因果问题,而必须借助因果关系的分析,这部分的内容后续会分享给大家。
## 如何看待乳腺癌X光筛查结果?
我们都知道,知名的美国好莱坞明星安吉丽娜·朱莉(Angelina Jolie)选择割除乳房,防止自己患乳腺癌,原因是她携带一种遗传性基因BRCA1(乳腺癌1号基因),这种基因导致患乳腺癌的概率大大增加。
很多人看到这样的消息总想着要不要自己去测一下乳腺癌,其实,值得普查的是乳腺癌基因,而乳腺癌的普查由于乳腺癌X光的灵敏度不够会带来大量的假阳性。乳腺癌的筛查更多地适用于有家族遗传,或者携带乳腺癌基因BRCA1、BRCA2的人群。
这里有个概念,叫检测的**灵敏度**,检测的灵敏度就是某人实际已经患病,通过检测,检测结果呈阳性的概率。
本书作者在书中列举了一个40岁女性做乳腺癌X光筛查的例子,原始数据来自于书中,但推导结论来自于我自己的演算。通过这个例子,大家可以看到40岁女性进行乳腺癌普查时假阳性有多么严重。
以下是演算过程:
> BCSC(乳腺癌监测联合会)的研究显示:
>
> 1. 一个普通40岁的女性,得乳腺癌的概率是1/700。
>
> 2. 一个真正得了乳腺癌的女性通过乳腺癌X光筛查,有73%的概率被检查出来呈阳性(即检测的**灵敏度**是73%)。
>
> 3. 一个没有得乳腺癌的女性通过乳腺癌X光筛查,有12%的可能是假阳性。
>
那么一个普通40岁女性,通过乳腺癌X光筛查出呈阳性,她真正得乳腺癌的概率有多少呢?通过贝叶斯公式的计算,被告知阳性的她真正得乳腺癌的概率是0.86%,这是一个很小的概率,**意味着99.14%被告知阳性的40岁女性都是假阳性**!
有人甚至建议,40岁的女性如果没有家族乳腺癌病史,不携带高危基因BRCA1和BRCA2,就不要去开展这一项检测,原因也正是因为检测出来之后,阳性的人群中有99.14%是假阳性,只有0.86%的人是真的患有乳腺癌。
下面这张图直观地展示了上述例子所描绘的真实情况,3000人里面只有4人患有乳腺癌,而4人中,有3人被诊断为患有乳腺癌,有1人假阴性,2996人都没有患乳腺癌,但其中360人被诊断为患有乳腺癌,其实这360人是假阳性。所以在阳性的人群里,真正得乳腺癌的有3/(3+360),低于1%,而阴性的人群中,确实绝大多数都是没有患乳腺癌的,但其实有1/(1+2636)的概率依然患有乳腺癌。

但是如果这个40岁女性有家族乳腺癌病史,那就需要额外关注了,这个人群中,每20人有一人是确实患有乳腺癌疾病的,即5%的概率。如果通过乳腺癌X光检测,检测结果是阳性,那么通过贝叶斯公式的计算,此人有24.33%的概率是真的患有乳腺癌,值得重视,需要进一步核查。
## 思考
1. 乳腺癌检测更适合高危人群,比如有直系亲属患乳腺癌的人群和携带乳腺癌基因BRCA1、BRCA2的人群等。
2. 在做检测时,最好能提前了解这项检测的灵敏度和假阳性概率是多少。
3. 贝叶斯公式告诉我们,不管之前的信念是怎样的,随着新的证据不断出现,修正的信念总会接近真实水平。
## 附录
贝叶斯的基础公式是:
P(D | T) P(T) = P(T | D) P(D)
以病的检测为例:
P(D | T)是某人在医院检测阳性,实际得病的概率;
P(T)是人群中检测阳性的概率;
P(T | D)是某人实际已经患病,检测呈阳性的概率,即**灵敏度**;
P(D)是人群患病的概率。
这个公式的一个变形就是:
P(D | T) =(P(T | D)/P(T))\*P(D)
这个新公式分为3部分,(P(T | D)/P(T))被称为似然比(The likelihood ratio),P(D)表示原有的信念,即原本患病的概率,P(D | T)代表检测结果出现后更新的信念,即检测阳性后实际患病的概率。
_注:本文不构成医学建议_