从体检报告聊贝叶斯


从体检报告聊贝叶斯

前几天,写了一篇贝叶斯的文章,发现很多人阅读,后台很多留言也提出了自己的质疑和看法。本篇换个角度再来聊聊贝叶斯,每次聊,我自己也迭代一次。所以,欢迎分享、参与讨论,这对于我很重要。

体检报告阳性了?

现代公司,为了时刻清楚牛马能不能继续工作,所以会定期安排体检,美其名曰“福利”。

如果你拿到体检报告,上面显示你得了一种重疾(例如北京的肺癌,乳腺癌等近些年来较为常见的重疾)。你紧张兮兮地问医生:啊,为什么是我?

医生不慌不忙地说:别急,我告诉你一个好消息一个坏消息,你先听哪个?

你也不管了,被诊断为重疾还不算坏消息,还有坏消息?那先来个坏消息吧。

医生说:咱们这台仪器啊,诊断的灵敏度是80%。也就是说,10 个真正得病的,能找出来其中 8 个人。

你心想:果然是坏消息,这个灵敏度可以,10 个能找出来 8 个,而我被它选中了。

医生继续说:好消息是,人们得这种疾病的概率并不高,只有 1%。大马路上随便拉过来 1000 个人,最后真有病的只有 10 个人。而这台机器也可能犯错,从那 990 个正常人中挑中 99 个人,说他们得病了,所以还有误诊 10% 的概率。我们称之为假阳性。

本来头脑发懵,医生又这一通数字输出,完全不知道如何应对。

医生问:贝叶斯公式学过伐?算一下你真正得病的概率就知道了。也就是算 P(病|阳),报告结果是阳性(报告说你有病)的条件下,你真的有病的概率。

上贝叶斯公式:P(病|阳)=P(阳|病)P(病)/P(阳)

从上篇文章的留言来看,大家主要糊涂的是右边的分母,所谓全概率公式这里。在这里,就要考虑各种情形下,诊断结果为“阳”的总概率。一共有两种情况:

  1. 本来就病了,诊断也为阳。表示为概率就是 P(病)P(阳|病),医生说,社会上得这个病的概率是 1%,所以 P(病)就是 1%,而这家医院,如果你本来有病,它能诊断出来的概率是P(阳|病),就是医生说的“灵敏度可以,10 个能找出来 8 个”,80%。两者相乘就是 0.8%
  2. 本来没病,误诊为阳。表示为概率就是 P(没病)P(阳|没病),医生说,社会上得病的概率是 1%,那么没病的概率就是 99%,没病还被测出阳性来,医生说有把正常人误诊为阳性的概率是 10%,也就是P(阳|没病)为 10%,两者相乘就是 9.9%。

所以,这家医院体检报告说你得了重疾(报告阳性)的总概率就是 0.8%+9.9%=10.7%。

贝叶斯公式分子,就是计算全概率的第一种情况:本来就病了,诊断也为阳。为 0.8%。因此,你拿到这份体检报告,真得病的概率就是 0.8/10.7=7.5%。

稳住,不要慌,这个概率并不高!

再测一次的话

医生建议你复查,也就是再测一次。再测一次,这家医院也不能一夜之间突飞猛进,所以它的下面这个指标不会变:

  1. 灵敏度 80%,也就是有病的前提下,它给出有病的结论,概率是P(阳|病)=80%
  2. 误诊率(假阳性)10%,也就是没病的前提下,他给出有病的结论,概率是P(阳|没病)。

但是这时候,你去复查,你有病的概率P(病)就不再等同于社会上所有人的概率,你是已经被诊断为一次有病的人了,所以你的P(病)=7.5%。看到没有,这就是贝叶斯公式的奥义所在,之前本来是一个后验概率,面对新的证据时,就是先验概率了,所谓“先验”和“后验”,就是“先于经验”跟“后于经验”,经验就是证据,就是现象。

如果复查的时候,还是给出了阳性的诊断结论。那么这时候,在按照前面的方式算一下概率,和前面唯一不同就是P(病)=7.5%,而不是 1%。计算可以得到P(病|复查为阳)=39%,得病的概率从 7.5% 直接上升了 5 倍!

如果复查的时候,给出了阴性的诊断结论,那么这时候,得病的概率就是:

P(病|阴)=P(阴|病)P(病)/P(阴)

P(阴|病)就是 20%,灵敏度的反面,1-80%。

P(阴)=P(阴|病)P(病)+P(阴|未病)P(未病)=20% x 7.5% + 90% x 92.5%

计算下来,如果复查为阴性,得病的概率就是 1.8%,从 7.5% 下降为 1.8%!

感觉好像哪里不对

总感觉有点不对劲,连续两次被诊断为大病,最后一顿操作算下来,得病概率才 39%,还不到 50%?

哪里不对呢?现实中有两种情况,影响的是都是得病的先验概率 P(病)。

第一种情况,假如说拿到体检报告时的你,健步如飞,从来没觉得自己有什么不舒服,身上也没有任何异样,胃口好,牙口好,睡眠好,上楼也不喘。你只是无意中去体检了,得到这么一份报告,那么这个先验概率 1% 对于你来说是可信的。尽管如此,复查之后概率上升了到5 倍,这件事也足以引起重视,换一个医院再查一次、找更专业的医生检查之后再确定,则比较保险。

第二种情况,就是你主动去做体检。你已经感觉到自己身体抱恙,或者身上有肿块,总之就是不正常了,那么你第一次去体检时,先验概率 P(病)肯定不是 1%,例如是 10% 的话,那么第一次诊断出阳性,得病的概率就是 47%,复查之后还是阳性,得病的概率就是 88%,几乎已经确定了。

所有的这些不对劲,都是和自己的先验概率相冲突。我们从贝叶斯公式中学会的是:

  1. 一定要尊重事实,这是迭代概率的核心原因。前面提到身体抱恙采取体检,那么其实已经完成一次先验概率的更新了,因为身体抱恙就是事实。
  2. 概率到底是什么?如果你有大量的事实和试验,那么概率可以是从这些事实中统计得到的频率,因为数据量大,频率就接近概率。如果没有那么多数据供我们统计频率,那么贝叶斯的思想认为概率就是一种“信念”,相信某件事发生的可能性是多大,乍一听,非常主观。但由于贝叶斯思想尊重事实,不断调整自己的信念,所以这个信念最终会变得靠谱。

前面的第二点非常重要,在我们的实践活动中,完全不具备大量数据供我们决策,这时候只能凭借经验和主观,先干起来再说,干起来了,获得了一点结果,就可以调整信念,先验变后验,后验变先验,是为迭代。


文章作者: 刑无刀
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 刑无刀 !
评论
  目录