一名律师,有着很棒的工作,迷人的妻子,幸福的家庭。他爱妻子和女儿,却仍然觉得生活中似乎缺少些什么。 一天晚上,当他乘火车回家时,无意瞥见一个美丽的女人,带着沉思的表情,从一个舞蹈班的窗口朝外凝望着。 第二天晚上,他的目光追寻着这个女人; 第三天晚上也是如此。 他的火车每多经过一次舞蹈班,他在爱情魔咒中就更陷进一步。 终于,在一个夜晚,他冲动地跳下车,报名参加了舞蹈班,希望能遇到这个女人。
但当远处的凝视变成面对面的相对后,她那令人难忘的吸引力逐 渐消失了。 他确实恋爱了:不是和她,而是和舞蹈。 他将这不理智的情感当作秘密保守着,不让家人和同事们知道,并为他那越来越多不在家中度过的夜晚寻找种种借口。 终于,妻子发现他并不像所宣称的那样经常加班到很晚。妻子想,他有了外遇而用谎言来掩饰下班后的行踪的可能性,要比他不是因为外遇而撒谎的可能性高得多,所以,她的结论是丈夫有了外遇。
概率能救命?说一个真实的故事吧,很遗憾这次救的是一个坏蛋。
这就是著名的辛普森杀妻案。
辛普森是个美式橄榄球明星、演员,他被指控于1994年犯下两宗谋杀罪,受害人为其前妻及她的好友。
该案被称为美国历史上最受公众关注的刑事审判案件。
在经历了创加州审判史纪录的长达九个月的马拉松式审判后,辛普森被判无罪。
尽管警方在案件现场收集到了很多证据,包括带血的手套、血迹、现场DNA检验,看似辛普森难逃被定罪伏法的命运,可是辩护律师们通过各种方法一一化解。
这其中,就涉及到一个概率问题。
辛普森高价请来了顶级律师团,其中一位是哈佛大学法学院的教授Alan。
Alan在法庭上用概率来为辛普森辩解:
已知:美国400万被虐待的妻子中只有1432名被其丈夫杀死。
所以:辛普森杀死妻子的概率只有1432/400万,即1/2500。
因此:辛普森杀死妻子的概率是非常低的事件,即辛普森几乎不可能杀死他的妻子。
辩词听起来很有道理,检察官一时无法反驳。
问题出在哪儿呢?
让我用直观的方式,来分析一下。
先看下面这个图,蓝色圆圈代表被虐待的美国400万妻子,红色代表1432名被丈夫杀死的妻子。
律师的逻辑看起来没毛病,你看图中,算下来虐待妻子的老公,只有一小部分(也就是1/2500)谋杀了妻子。
如上图,1/2500是“红色面积/蓝色圆圈面积”的结果。
但是,律师偷换了概念。
再看下面这个图,蓝色圆圈代表被虐待的美国400万妻子,红色代表1432名被丈夫杀死的妻子。
这里新加了一个绿色的圆圈。其信息如下:
因为我们讨论的是被谋杀的被虐待妻子,所以绿色圆圈被包含在蓝色圆圈内;
因为并不是所有被谋杀的妻子都是被丈夫杀害的,所以红色圆圈被包含在绿色圆圈内,“问号”部分部分表示那些被别人谋杀的被丈夫虐待的妻子。
你看看,即使不知道凶手是谁,辛普森的妻子应该在哪个圆圈里?
是绿色圆圈。
所以,辛普森是凶手的概率,应该是用红色面积除以绿色面积。
律师的鬼把戏是什么?
他用蓝色替换了绿色,用“红色/蓝色”的虚假概率1/2500,替换了“红色/绿色”的真实概率。
那么,这个真实概率应该是多少呢?
据统计,高达90%!
就是如此简单的一个“小把戏”,居然骗过了法庭!
我们的大脑和直觉怎么了?
A3
也许检察官该了解一下贝叶斯公式。
贝叶斯定理是关于随机事件A和B的条件概率的一则定理。
这个公式简单得难以置信,简单描述一下:
从原因到结果的论证称为“先验的”;
而从结果到原因的论证称为“后验的”。
数学式子2+2=4;
恒真命题“所有的单身汉一定没有结婚”。
理性主义者相信存在先验知识;
经验主义者认为所有知识根本上源于某种经验(通常是外部经验)。
先验概率。是指根据以往经验和分析得到的概率,它往往作为”由因求果”问题中的”因”。
例如那位哈佛律师说的1/2500,就是一个(虚假的)先验概率。
后验概率。是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的”果”。
A和B是两个随机事件,二者有重合的地方,示意如下:
蓝色圆圈代表A发生的概率,红色圆圈代表B发生的概率,中间重叠的绿色部分代表A和B同时发生的概率。
我们标记如下:
我们来试着推演一下贝叶斯定理。
这个过程简单得让人怀疑,但我强烈建议你自己找张纸画一遍。
是不是觉得简直像个小学生的简单把戏?
的确如此。
然而,正是这样一个小把戏,令辛普森的律师在法庭上变了一场魔术,扭转了局面。
我们用贝叶斯定理重新推理一下。
律师谈论的条件概率,基于以下两个事件:
事件A1:妻子被虐待;
事件B1:妻子被丈夫杀害。
所以妻子被丈夫虐待的情况下,被其杀害的条件概率是P(B1|A1)。
律师给出的数字是1/2500。
如上图,P(B1|A1)=1/2500,也就是“红色面积/蓝色面积”。
但是,律师偷换了概念。
事实上,已知条件是:妻子已经被虐待+(未知原因的)致死。
我们真正该讨论的条件概率应该是:
在“妻子被虐待并致死”的条件下,“凶手是丈夫”的概率是多大?
让我继续画一下:
A2:妻子被虐待+(未知原因的)致死;(绿色圆圈的面积)
B2:凶手是丈夫。(红色色块里的面积)
所以正确的计算应该是:
P(B2|A2)=红色面积/绿色面积。
你发现那位哈佛律师的鬼把戏了吗?
在分母部分,他用很大的蓝色面积(美国有400万被虐待的妻子),替换了很小的绿色面积(被杀的被虐待妻子),从而大幅拉低了辛普森的犯错概率。
这等于是悄悄改变了前提条件,也就是制造了一个条件概率谎言。
事实上,根据统计资料,P(B2|A2)的数值约为90%。
这意味着,辛普森是凶手的概率高达90%,而不是1/2500。
律师调换了辛普森的概率权。
概率权是我创造的一个词。
概率权=概率计算+选择权。
例如,对于辛普森来说,在谋杀嫌疑犯这件事情上,他的概率权(作为负值)是90%,而非1/2500。
又例如,有些人宁可追求比被雷劈概率还小的中奖机会,也不愿意去做有50%把握成功的事情。
在本文中,概率权又多了一重含义:无所不知者对概率的分配权。
例如,流量、IP等等,背后其实都是平台的概率权分配游戏。
在贫富差距的关键决策点上,“穷人”放弃了自己的概率权益。
A4
贝叶斯公式的确非常简单,然而辛普森案就告诉我们,假如一个简单的东西能够把一大堆聪明人都搞晕,那就说明这个东西不简单。
好玩儿的是,我写辛普森案时搜索到了两篇主要文章,尽管这个案例的源头都是来自英文资料,但是其中一篇文章居然“编译”错了。
我们的大脑不是为概率设计的,尤其是有两个以上不同的概率叠加在一起的时候。
你之所以对贝叶斯没有一个直观的概念,是因为一方面这个概念简单却不直观,一方面人们在生活中很少有意识地去用到这个公式解决问题。
假如警察真的是想抓酒鬼,那么酒鬼在第三家酒吧的概率是75%;
假如警察是酒鬼的兄弟不那么想抓他,酒鬼在第三家酒吧的概率是90%。
酒鬼去每个酒吧的概率都是30%,这是一个统计结果,也就是说过去100天,酒鬼有30天去酒吧A,30天去酒吧B,30天去酒吧C,10天回家被老婆骂。
那么具体到今天,他要么在三个酒吧中的某一个,要么在家里。不管他在哪儿,他都是百分之百在那里的。
既然如此,概率有什么用呢?是拿来分析可能性的。例如知道概率的大小,警察就知道去任何一家酒吧抓住酒鬼的可能性,都是在家里抓住他的可能性的3倍。一次未必准,但抓上很多次,就越来越接近这个比例。
在贝叶斯统计中,某一不确定量p的先验概率分布是在考虑”观测数据”前,能表达p不确定性的概率分布。 它旨在描述这个不确定量的不确定程度,而不是这个不确定量的随机性。
在贝叶斯统计中,一个随机事件或者一个不确定事件的后验概率是在考虑和给出相关证据或数据后所得到的条件概率。 同样,后验概率分布是一个未知量(视为随机变量)基于试验和调查后得到的概率分布。 “后验”在这里代表考虑了被测试事件的相关证据。
当警察真的想抓(且不知道酒鬼在哪儿)的时候,他通过去酒吧A和酒吧B的“数据测试”,更新了酒鬼在酒吧的总体概率。这就是75%的由来。
当警察真的想抓(且知道酒鬼在哪儿)的时候,他通过去酒吧A和酒吧B的“数据操控”,没有改变酒鬼在酒吧的总体概率,而是将这个90%全部分配到了酒吧C。
一位朋友说:要是你能结合一些与生活联系紧密的问题,对贝叶斯定理加以说明,再谈一下如何应用,慢慢地我会很习惯地也用这种思维去解决问题。
其实,我们的大脑无时无刻不在使用贝叶斯定理。
《嫌疑犯X的献身》是东野圭吾的长篇推理小说,讲述了一个自暴自弃的数学天才“石神”帮助两母女逃脱误杀罪行的故事。
警察问三月十日“案发当晚”母女俩在哪儿,女主角答去看电影了,随后去了KTV。
警察走后,准备为爱献身的男主角教女主角如何应对调查,他和她对话:
熟悉小说和电影的你,应该知道,还有一个和数学天才演对手戏的物理天才“汤川学”,他最终破解了数学天才“石神”布下的重重迷局。
其中,在讨论起犯罪嫌疑人的电影票时,汤川问警察存根的事情:
让我们把场景简化一下:
假如母女俩的确是在三月十日当晚误杀了人,并且打算用找来的电影票存根来欺骗警察,那么,为什么石神要让她们做如下动作?
1、没有主动拿出电影票存根;
2、警察索要的时候,假装不确定找得到;
3、把存根夹在电影简介里。
抛开演戏和放烟雾弹,这背后有什么数学原理吗?
A6
Matrix67在一篇博客里,做过类似的分析。他的故事是:
室友昨晚可能去开房了,但辩解说自己其实是看电影了。
别人找他要电影票,他说没有。翻了好一会儿,才找出来。
假如他真的是去开房了,那么他真的是个用概率论撒谎的高手。
故事很相似。Matrix67用贝叶斯定理做了分析。
若令事件A等于“M同学去开房”,事件B等于“M同学有电影票”,让我们来看看公式中的各个概率的意义:
P(A):M同学昨晚去开房了的概率
P(B):M同学手中有电影票的概率
P(A|B):M同学手中的电影票被发现后,他昨晚去开房了的概率
P(B|A):如果昨晚M同学真的去开房了,他手中会有电影票的概率
M同学想用电影票作伪证,也就是说要让室友心目中P(A|B)的数值更小。
你还记得前面的贝叶斯定理吧,那就是:
P(A|B) = P(B|A)·P(A)/P(B)
因为M同学的目的是让P(A|B)的数值更小,从上面的公式我们可以看到,可以通过减小等号右侧的 P(B|A),也就是:
如果昨晚M同学真的去开房了(事件A),他手中会有电影票(事件B)的概率。
如何做到这一点呢?
不要轻易拿出证据(前文所说的策略)。
故意做出没法给出证据的样子,让人越来越坚信在事件A发生后还能给出证据B的概率有多么小。
我猜你未必对上面的解释满意,所以接下来我继续祭出自己难看但直观的图解。
如上图,小伙伴们其实就是对黄色区域(真开房假买票)表示怀疑,所以M同学要做的就是压缩黄色区域的面积。
这里其实暗含着小伙伴们内心底的一个怀疑(在贝叶斯定理里叫“信念”):
你去开房也可以弄个假票,这不难呀。
请注意,这个假设其实暗含着小伙伴对“开房也能弄假票”的难度的概率期望值。
那么,假装没有票根,随后再不经意地拿出来,到底有什么好处呢?
我们还是看图说话,好处有两个:
1、M通过示弱,让小伙伴调整了信念–“你看,也不是那么容易搞到假票根吧”,这样一来,降低了小伙伴对“开房也能弄假票”的难度的概率期望值,也就是压缩了上图黄色区域的面积;
2、观察到M开始的时候没有找到票,强化小伙伴的假设–“你看,你一定是去开房了!”这个时候,小伙伴们被引入到上图红色圆圈左侧的地方,也就是“真开房而且没有票”。
接下来,突然不经意地找到了票,会让小伙伴们一下子产生了较大的落差,觉得自己开始的猜测全是错的。
举个例子吧,如何让你觉得一桶冷水是热的?
那就是把你的手放进一桶更冷的水里,再把手放回来,你就会觉得,这桶水变热了。
这个比喻有点儿绕,但真的很精确。
我们现实中对“一个一直对自己不好的人”的好行为的感知,往往比对“一个一直对自己好的人”的好行为的感知要更强烈。
这就是魔术师的秘密:通过改变期望值,以及转移视线,来改变基础概率和条件概率。
你还会觉得贝叶斯定理没用吗?
撒谎可是人类社会最重要的底层能力之一了。
厉害的撒谎者,其实就是一个贝叶斯高手。
即使你不懂这个公式,但你早就用得炉火纯青。
那些心理大师和情商高手,也是用概率来支配你我的。
A7
贝叶斯公式简单得离谱,甚至看起来毫无用处。
然而,真正搞懂这个公式的人,1%都不到。
而这1%里面,又可能只有10%的人能够“感知”到公式背后的原理。
下面,我试着不用公式来拆解贝叶斯。
先来看一个影院中的贝叶斯推理。
(下面案例的英文出处:Brandon Rohrer)
你前往影院排队观影,前面有个小伙伴,长发披肩,衣着中性,如上图,请问Ta是女士的概率有多大?
情况A
我在《生命、宇宙以及任何事情的终极答案》中介绍过类似的计算方法。
如上图,是一种视觉化的贝叶斯计算法,在《统计学关我什么事》一书中有详细解释。
请注意上面绿色和黄色两个长方形:
1、“面积”的概念在贝叶斯概率的计算中,起着重要的作用。
2、事件的可能性,由绿色和黄色两种构成。二者各自的概率,体现为长方形的宽度。例如上图中,是假设男女比例是1:1。
3、长方形的高度,是指“可能世界”的可能构成。例如上图,绿色长方形指女性的可能世界,进而该可能世界,是由“一半长发+一半短发”的假设比例构成。
了解了面积法,开始计算,步骤如下:
第一步:首先假定影院中男女各占一半,100个人中,50个男人,50个女人。贝叶斯计算的特点,就是可以主观预测,毛估估一下。
第二步:假设女人中,一半为长发,余下的25人为短发。而男人中,48位为短发,两位为长发。这同样是基于常识和主观预测的毛估估。
第三步:由此可以计算,有25个长发女人和2位长发男人。
第四步:所以,Ta是女士的可能性为“25/(25+2)=92.6%”。
让我用更加简单、更加直观的方法,来描述一下这个计算过程:
还记得我在《为什么真正聪明的人都是概率高手?(零公式入门篇)》里提及的平行宇宙法吗?
这是一个打比方的方式吗?不全是。后面我会再解释,这里我继续冒着被聪明家伙嘲讽的风险,用平行宇宙法来代替贝叶斯公式,重现一下上面的计算过程:
第一步:假设“不可知的未来”由100个平行宇宙构成。
假设电影院里男女各一半(这是一个毛估估的先验概率),所以,100个平行宇宙里,有50个是男,50个是女。
第二步:进一步“分裂”50男和50女的平行宇宙。
继续根据常识(又是一个毛估估的先验概率),男性极少有人长发,而女性则各有一半。
第三步:根据观测到的数据来关闭不合理的平行宇宙。
通过实际观测,前面那位是长发,所以,不符合这个特征的平行宇宙将被关闭。如下图被黄线划掉的部分。
第四步:重新计算现有的平行宇宙的分布概率。
如下图,剩余的平行宇宙分布如下:
这一下子变成了一个非常简单的概率问题。
一共还剩27个平行宇宙,女性占了25个,所以前面是女性的概率是25/27。
情况B
现在让我们增加一个新的信息,你现在排队是在准备进入男士休息室。依靠这个额外的信息,仅采用常识和背景知识即可完成判断Ta更可能是男性,无需思考。
但是,贝叶斯推理则能以数学实现形式,做出更加精确的预测。
其意义在于,在某些你无法见简单靠常识和直觉来做出量化判断的时候,你就需要精确的算法了。所以让我们继续用贝叶斯来计算如下:
如上图,还是采用面积计算法我们开始推理:
第一步:100个人在男士休息室外排队,我们主观猜测毛估估一下,其中98名为男士,有2位陪同的女士。如上图中的绿色长方形,因为女性极少,所以该长方形很“瘦”。
第二步:假设女人中,一半为长发,一半为短发。而男人中每50人里有两位为长发。和上面的情形一样,这也是基于常识和主观预测的毛估估。我们注意到,尽管男性长发的比例很低,但是由于人群基数较大,所以下面计算男性长发人数的(深黄色那个)长方形很“胖”,有4个之多。
第三步:按照以上的假设,短发男士有94人,长发为4人。而两位女士则一个长发一个短发。即,长发人士里有4男1女。
第四步:Ta是女士的可能性为20%。
我们同样可以用我所说的平行宇宙法,来计算这种状况。
这里再次出现了前面提及的两个概念:
1、先验概率。
例如上面长头发是男是女的案例里,开始根据常识,假设人群整体性别比例为1:1。
2、后验概率。
由于知道了是在男士休息室前的排队,根据此信息,将人群男女比例调整为98:2。
又由于观察到前面的那位是长发,所以关闭掉了短发的平行宇宙,更新了概率分布。
该过程称为“贝叶斯推理”。贝叶斯推理可以总结为:通过观察行动(信息),将先验概率通过贝叶斯更新,转换为后验概率。
而这个后验概率,又可以变成下一次推理的先验概率。
贝叶斯算法之所以在人工智能时代大放异彩,是因为其具有这种学习功能。贝叶斯推理中,修改过的“各个类别的后验概率”,已经使用了所有的信息。也就是说我们可以将其看作“从信息中学习到的结果”。贝叶斯推理正是具备了“收集信息并自动变聪明”的功能。
A8
你还记得本文开头那个电影吗?
是时候说说:“她丈夫有外遇时表现得鬼鬼祟祟的概率”,与“当她丈夫表现得鬼鬼祟祟时他是在搞外遇的概率”,二者之间到底有什么区别?
我们来温习一下贝叶斯公式显得很强大的一个现实场景:
(案例来自维基百科。)
假设一个常规的检测结果的灵敏度和特异度均为99%,即吸毒者每次检测呈阳性(+)的概率为99%。而不吸毒者每次检测呈阴性(-)的概率为99%。
从检测结果的概率来看,检测结果是比较准确的,但是贝叶斯定理却可以揭示一个潜在的问题,几乎每个第一次看到这个问题的人都会有些意外。
假设某公司对全体雇员进行吸毒检测,已知0.5%的雇员吸毒。请问每位检测结果呈阳性的雇员吸毒的概率有多高?
令“D”为雇员吸毒事件,“N”为雇员不吸毒事件,“+”为检测呈阳性事件。可得:
P(D)代表雇员吸毒的概率,不考虑其他情况,该值为0.005。因为公司的预先统计表明该公司的雇员中有0.5%的人吸食毒品,所以这个值就是D的先验概率。
P(N)代表雇员不吸毒的概率,显然,该值为0.995,也就是1-P(D)。
P(+|D)代表吸毒者被验出为阳性的概率,这是一个条件概率,由于阳性检测准确性是99%,因此该值为0.99。
P(+|N)代表不吸毒者被验出为阳性的概率,也就是出错检测的概率,该值为0.01。因为对于不吸毒者,其检测为阴性的概率为99%,因此,其被误检测成阳性的概率为1 – 0.99 = 0.01。
P(+)代表不考虑其他因素的影响的阳性检出率,白话来说,即该公司有多少比例的检测结果为阳性。该值为0.0149或者1.49%。我们可以通过全概率公式计算得到:此概率 = 身为吸毒者的概率 x 吸毒被验出阳性的概率(0.5% x 99% = 0.495%) + 身为不吸毒者的概率 x 不吸毒却被验出阳性的概率(99.5% x 1% = 0.995%)。P(+)=0.0149是检测呈阳性的先验概率。用数学公式描述为:
根据上述描述,我们可以计算某人检测呈阳性时确实吸毒的条件概率P(D|+):
尽管吸毒检测的准确率高达99%,但贝叶斯定理告诉我们:
如果某人检测呈阳性,其吸毒的概率只有大约33%,不吸毒的可能性比较大。
假阳性高,则检测的结果不可靠。这是因为该公司不吸毒的人数远远大于吸毒人数,所以即使不吸毒者被误检为阳性的概率仅为1%,其实际被误检人数还是很庞大。
概括而言,某人吸毒而被检测出呈阳性的概率,与他被检测出呈阳性而吸毒的概率,是两回事情。
回到开头的故事,男主角因为有艳遇而鬼鬼祟祟的概率,与他鬼鬼祟祟而有艳遇的概率,也是两回事情。
A9
贝叶斯定理有一种非常“奇怪”的态度:概率并非频率,而是一种主观程度的信任。
你赋予某个随机事件一个“先验概率”,然后通过新证据来修正,得到一个“后验概率”。然后你把这个“后验概率”变成新的“先验概率”,再来一次修正……
比方说,你在街边见到一个人摆摊儿,与路过的人玩儿扔硬币游戏。你很冷静地在旁边观察了一阵子,发现他连续扔出了8次正面。
不懂概率的傻瓜会说:哇,正面的手气好旺,我要押正面!
坚信“赌徒谬误”的家伙会说:下一次是反面的可能性越来越大啦!
懂概率的书呆子会说:蠢!根据大数定律,下一次是正面的概率还是50%!
然而,这三个人都错了。
前两个人的错误不值一提,我们重点看看懂概率的书呆子错在哪儿。
在街边这个“环境条件下”,我们有理由怀疑扔硬币的庄家作弊了。假如我们持续观察,并采用贝叶斯算法,可以算出作弊了的硬币正面朝上的概率。
《统计学关我什么事》对贝叶斯定理给出了以下描述:
主观和客观
通常所说的概率,是一个客观的概念,答案是唯一的,例如扔一个标准的硬币,正面朝上的概率是50%。
贝叶斯定理提及的“概率”,是一种“主观概率”。其解释为:
你内心描绘的类似“信念程度”这样的概念。
也就是说,并非“概率是多少”的问题,而应该理解为“你认为概率是多少”。
总经理的概率
贝叶斯推理的强项是“无论在何种条件下,都能得出一个暂时的结果”。
但是,这个结果并不像内曼-皮尔逊统计学那样,得出一个单方面的判断(非 A即 B),而是认为两种可能性都有,并赋予这两种可能性相应的比例关系,仅此而已。
所以,贝叶斯推理其实需要一个“代理人”,这个代理人需要有个基于信念的初始判断,通过观察,然后更新判断。
贝叶斯推理也常被称为“总经理的概率”。
极大似然原理
世界上正在发生的事件,之所以发生,是因为它发生的概率大。
学习功能
贝叶斯推理中,修改过的“各个类别的后验概率”,已经使用了所有的信息。
也就是说我们可以将其看作“从信息中学习到的结果”。
贝叶斯推理正是具备了“收集信息并自动变聪明”的功能。
拥有“人类特性”的功能
迄今为止,大脑如何工作,仍然是个谜。
例如,为什么孩子的学习速度那么快?
为什么机器要学习几千万张图片才能识别猫。而孩子认一次就会了,而且一辈子几乎都不会忘,不会错。
就像我们判断一个人,是不断地重复“信息” →“修改印象” →“遗忘信息”的过程,慢慢地就会形成了对这个人的固定评价。
像这样通过逐步“修改印象”得出的结果,与“通过迄今为止的所有观察,一次性形成的印象”之间,并没有太大的偏差。
因此,我们没有必要总是“从白纸开始思考”,这样会耽误大量的时间和精力。
贝叶斯推理,其实就像我们日常每天都在做的“印象的修改”和“学习”等一样,只不过是运用了系统的数值来进行计算。
反之,贝叶斯推理也能够让我们在信息不足的不确定环境下去思考,去决策,去行动。
A10
贝叶斯公式这类计算,能够让我们对某些简单的大道理有更深刻的理解。只有洞察了背后的原理,真理才能被称为真理,否则与鸡汤无异。
如此,我们便能理解为什么达利欧说:卷入快速学习的反馈循环之中是件令人兴奋的事情。
我们也才算明白了“复盘、飞轮、刷新、升级”的价值与意义。
假如我们仅从时间的某个切片,二维地看贝叶斯公式,其实只是一个简单的四则运算罢了。
但是,在时间的这个维度加入以后,切片与切片之间建立起联系,魔法出现了。
这是一个持续循环的过程。
贝叶斯的神奇之处在于,你在主观设置先验概率时,并不需要那么精确。
我与一些牛人接触过程中发现,他们并不比别人更聪明,当他们接触到新鲜事物时,经常因为天赋一般,而不能有领先一步的判断,你甚至会怀疑这个家伙如此普通,凭什么拥有这么多?
芒格曾在演讲里说:
不少人都能在晋级测试或快速计算中表现得极为机敏,但他们接二连三地犯愚蠢的错误,这仅仅因为脑海中层出不穷的疯狂念头。
尼采曾说过:“总会有人以自己拥有跛脚为荣。”如果你曾遭受失败而不思悔改,将以自己的方式滑向浅薄。妒忌、太多的自我怜悯、偏激的思想、强烈的愚忠,所有这些作为一个明显的标志,表明你已经失去大脑并将被铁锤所痛击。
进而,芒格分析了巴菲特的旷世成功之谜:
具有决定性的因素是沃伦是这个世界上最佳的持续学习机器。
乌龟最终战胜兔子是持续努力的结果,一旦你停止了学习,整个世界将从你身旁呼啸而过。
巴菲特这类人,拥有一个强大的贝叶斯大脑。
具有嘲讽意味的是,小孩子天生拥有鲜活的贝叶斯大脑,我们却用刷题将他们变成机器。
你想容颜不老、青春永驻吗?
这两年,一种叫“二甲双胍”的神药悄悄流传起来。
起初,它是世界上使用最广泛的降糖药之一,最重要的作用是治疗糖尿病,是2型糖尿病的首选药物,也是第一个被证明能预防糖尿病或延缓糖尿病发生的药物。
后来,人们发现,这玩意儿还能减肥。
再后来,人们发现它还能抗癌。
人们还发现,二甲双胍还能够延缓衰老……
反正,我知道不少聪明又贪心的朋友,正在悄悄吃这玩意儿。
(听医生的,别乱吃药。)
神药为什么这么厉害?
有些机制我们知道了,有些还不知道。
其实,这类现象,在医学领域很常见,很多药物尽管获得了监管部门的批准,并且被广泛使用,但实际上也没人知道它们到底是如何起作用的。
比如,1897年阿司匹林问世,但直到1995年才有人真正解释了它是如何起作用的。
《纽约客》的一篇文章,把这种先找答案再解释的方法,称为:
“智力债务”。
作者认为,人工智能新技术提高了我们的“智力债务”。
以前的智力债务主要局限于医学等领域,随着人工智能新技术,特别是机器学习的出现,我们的“智力信用额度”被提高了。
机器学习系统越来越擅长解决一些不可思议的模糊开放的问题。它们在数据海洋中识别模式,但并没有发现因果机制。
就像“贝叶斯网络之父”朱迪亚·珀尔所担心的:
机器学习系统只告诉人类结果,但不解释为什么。
在人肉智能和人工智能之间,鸿沟越来越大。
B2
这笔智力债务,和贝叶斯定理有关。
故事要从第一次人工智能浪潮的危机开始讲起。
20世纪80年代,人工智能领域的研究遇到了麻烦。
《为什么》这样介绍道:
“人工智能的主导机制就一直是所谓的基于规则的系统或专家系统,它将人类知识组织为具体事实和一般事实的集合,并通过推理规则来连接两者。
例如:苏格拉底是一个人(具体事实)。所有人都会死(一般事实)。从这个知识库中,我们(或一台智能机器)可以使用普遍推理规则推断出苏格拉底会死的事实,也就是:如果所有A都是B,x是A,那么x也是B。”
然而,面对复杂的现实世界,专家系统很难从不确定的知识中做出正确的推断。
《为什么》的作者朱迪亚·珀尔在20世纪80年代初开始研究人工智能,他发现:
不确定性正是人工智能缺失的关键要素。
不确定性应由概率来表示。
朱迪亚·珀尔在1982年提出了一个非常激进的建议:
将概率视作常识的“守护者”,聚焦于修复其在计算方面的缺陷,而不是从头开始创造一个新的不确定性理论。
更具体地说,我们不能再像以前那样用一张巨大的表格来表示概率,而是要用一个松散耦合的变量网络来表示概率。
受到神经网络的先驱大卫·鲁梅哈特的启发,朱迪亚·珀尔确信:
人工智能必须建立在模拟我们所知道的人类神经信息处理过程的基础上,并且不确定性下的机器推理必须借助类似的信息传递的体系结构来构建。
随后,他终于认识到,信息是一个方向上的条件概率和另一个方向上的似然比。
于是,朱迪亚·珀尔创建了一种关于不确定性的推理方法:“贝叶斯网络”。
贝叶斯网络用于模拟理想化的、去中心化的人类大脑将概率纳入决策的方法,可以根据我们观察到的某些事实迅速推算出某些其他事实为真或为假的概率。
就像我们前面看到的,这正是简单的贝叶斯定理不可思议的强大之处。
朱迪亚·珀尔让贝叶斯网络成为机器学习的一个切实可行的解决方案。他因此被称为贝叶斯网络之父。
贝叶斯网络,在信息时代像个神话。
例如我们使用的4G手机,使用的纠错算法是加拉格的类turbo码。由于编码和解码是手机能耗最大的部分,使用了新代码的手机能耗大幅降低了。
该灵感来自一位叫贝鲁的法国工程师,起初他没意识到自己使用的是和贝叶斯网络同样的算法。
贝叶斯网络在人工智能领域流行开来,被视为人工智能在包含不确定性因素的情况下进行推理的主导范式。
从最早的计算机器开始,计算机都是用来解决精确的计算问题的。我还记得80年代末初学围棋时,日本超一流棋手石田芳夫的绰号叫“电子计算机”,意思就是说他计算非常精准。
而贝叶斯网络,则让计算机能够在“灰色地带”进行思考。
是不是有点儿像当年物理学走投无路时向量子力学的惊险一跃?
概率,这个鬼魅的身影,在20世纪的一头和一尾,帮助人类打开了一个奇异的天空,也把人类带入了愈发未知的世界。
B3
贝叶斯定理看起来不过是一个简单的规则:
当你收到新的论据时,它用来改变你对某个假设的信任度。
如果论据和假设一致,假设成立的概率上升;
反之则下降。
通常我们思考一个问题,是先给定原因,然后去找结果。
而贝叶斯定理的价值,在于可以帮助我们“从结果找原因”。
18世纪的神秘牧师托马斯·贝叶斯这样表述他简单却伟大的思想:
“已知某个未知事件的发生次数和失败次数,求某一次实验中该事件的发生概率处于两个已知概率之间的概率。”
谁能想到,这么简单的公式,可以成为统计学和机器学习的基础?
《终极算法》一书介绍道:
朴素贝叶斯算法就是一个可以用短方程来表达的学习算法。只要提供患者病历的数据库,包括病人的症状、检查结果,或者他们是否有什么特殊情况,朴素贝叶斯算法就可在一秒之内做出诊断,而且往往比那些花几年在医学院学习的医生还要强,甚至它还可打败花费数千小时构建的医学专家系统。
该书作者佩德罗·多明戈斯做了一个假设:
所有知识,无论是过去的、现在的还是未来的,都有可能通过单个通用学习算法来从数据中获得。
这就是所谓的“终极算法”。
为了论证这个观点的可能性,作者提及了一个统计学流派的观点:
所有形式的学习都是基于一个简单的公式——贝叶斯定理。
我们在前面几个简单却又让人疑惑的计算中,了解到贝叶斯定理的小把戏:
每当你看到新的证据后,更新你的想法。
在此基础上,贝叶斯学习算法对世界进行一系列假设,由此开始进行学习。
当它看到新的数据时,与该数据匹配的假设更有可能会成立(或者不可能成立)。在观察足够的数据后,某个假设会成立,或者几个假设同时成立。
如此一来,贝叶斯定理就是将数据变成知识的机器。
B4
贝叶斯学习算法的优势在于:
在数据少的情况下也可以进行推测,数据越多,推测结果越准确;
对所获的信息可做出瞬时反应,自动升级推测的学习功能。
研究者发现:人们学习新的概念,往往能从单一的案例中学习,尤其是孩子。而机器学习则需要成千上万的数据才能达到类似的精度。人们也可以用更丰富的方式学习概念,例如在行动、想象和解释层面。
于是科学家们提出了一个计算模型,捕捉到人类的学习能力,为基于字母的手写体创造出直观的概念。在这模型背后,研究者使用了简单的贝叶斯程序完成。在这个具有挑战性的分类任务中,贝叶斯程序战胜了深度学习方法,达到了人类的水平。这个模型也通过了图灵测试。
例如用来识别垃圾邮件:
一个简单的数学概念为何会产生如此魔力?
研究人员提出以下讨论:
人类大脑的思考和决策过程,是否如同贝叶斯程序一样?
我们知道达尔文用极其简单的模型解释了人类复杂的进化行为,那么贝叶斯定理会成为人类大脑的进化论吗?
大脑认知是一种贝叶斯程序吗?
B5
然而,没有多久,贝叶斯网络之父就“叛变”了。
朱迪亚·珀尔从贝叶斯倡导者变身为“叛教者”。
就像作为量子力学奠基人之一的爱因斯坦,毕生无法接受量子力学的“不确定性”。
一个当年曾经折磨过爱因斯坦的“幽灵”,又漂浮了出来,那就是:
因果论。
这正是“人工智能”和“人肉智能”之间无法回避的缺失要素。
30年过去了,人工智能越来越强大,朱迪亚·珀尔所担心的“因果”缺失,似乎没能阻挡什么。
但朱迪亚·珀尔对人工智能的“黑盒子”的批评越发强烈,他认为,即使是成果斐然的深度学习,只是让机器具备了高超能力,但绝非智能,因为其缺少现实模型。
一切都是统计学的拟合把戏。
朱迪亚·珀尔举例说,机器是不会自己弄明白手里拿着一瓶威士忌的行人可能对鸣笛做出的不同反应的。
这种灵活性和适应性,对人肉智能来说很容易,对人工智能来说很难。
当人们用贝叶斯学习算法,解决了一个个不可思议的难题,也会产生一个疑惑:除了概率的计算,那些我们能够感知到的逻辑在哪儿?
同时,人们也开始反思对人工智能的过度狂热,并且质疑通用人工智能的可能性。
Facebook人工智能副总裁erome Pesenti认为,AI 这一领域很快就会“碰壁”。
他的观点是:
有人认为 AGI(人工通用智能)是人类智能。但人类的智力本身就不是一个统一的问题。
有人认为AGI 是一种可以靠自己不断进化的智力,但是这并没有真正的模型,即便是人类都不能让自己变得更聪明。
深度学习和当前的人工智能有很多局限性。我们离人类智力非常遥远。
它可以传播人类的偏见,不容易解释,它没有常识,更多的是在模式匹配而不是强大的语义理解的层面上。
但我们在解决其中一些问题上取得了进展,而且这一领域的进展仍然相当快。你可以把深度学习应用到数学上,也可以用它来理解蛋白质,你可以用它做很多事情。
乐观的科学家则试图突破这种局限性,对 AGI为人类带来指数级的幸福提升充满信心(又或是信仰)。
人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。
现在,科学家们又试图找回“人肉推理”。
B6
参与制造了“智力债务”的朱迪亚·珀尔,打算开始清算这笔债务。
作为人工智能“黑箱”的奠基人之一,他试图掀起一场因果革命。
朱迪亚·珀尔认为数据不了解因果,而人类了解。
用一句话来概括他在《为什么》一书中的内容,那就是:
“你比你的数据更聪明”。
因为除了自我模拟,我们没有更好的方法来了解人类自身了。
创造了AlphaGo的哈萨比斯,曾经说围棋AI战胜人类的秘密其实就是“模仿”了人类的直觉。
但在朱迪亚·珀尔看来,AlphaGo缺乏可解释性是它的硬伤。
他说:
因果关系不能被简化为概率。
人们经常使用“概率提高”的概念来定义因果关系:如果X提高了Y的概率,那么我们就说X导致了Y。”
这看起来似乎没什么错,但却会得出类似于“冰淇淋销量上升导致淹死的人数增加”这样奇怪的结论。
问题出在哪儿?
X和Y共同的因,或称混杂因子。
冰淇淋不是淹死人的凶手,而是因为:夏天天气炎热,所以冰淇淋的销量和游泳的人数同时提高了。
这看起来很简单,但无时不刻不在搞晕我们。
朱迪亚·珀尔给出了一个看起来极其简单的工具:
因果图。
老鹰在漫长的进化中,发展出了非凡的视力,但为什么只有人类能够发明望远镜?
朱迪亚·珀尔称之为“超进化加速”。
那么人类是如何获得动物所不具备的计算能力的?答案是:
因果想象力。
对于《人类简史》所说的人类祖先想象不存在之物的能力,朱迪亚·珀尔在前面加了一个“因果”。
因果想象力帮助智人祖先通过规划复杂的过程来完成许多事情,例如集体狩猎长毛象。
为了完成这个任务,思维主体需要构建一个模拟现实的心理模型。
有了心理模型,猎人们就可以通过对模块的修改,来提高成功的概率。
基于这一点,朱迪亚·珀尔搭出了一个因果关系之梯。
B7
假如你跋山涉水看到了这里,会还记得“抓酒鬼”那道题吗?
说这道题太简单的人都是不诚恳的。当年在美国,这道题搞晕了一大堆大学教授、数学家、博士在内的专业人士和聪明人。
疑惑在于:
1)打开一扇门之后,剩下两扇门,难道每扇门之后有汽车的概率不是一样的50%吗?
2)如果主持人打开一扇门,那扇门原有的1/3可能性,为什么全部分配到C门了?A和C有什么区别呢?
3)到底是什么神秘的力量,导致了概率的重新分配?
即使你知道并理解了这个问题的答案,还是可能忽略了本题的一个关键点:
主持人到底是否知道B门的后面没有汽车。
《不确定世界的理性选择》对此有精确描述:
主持人的规则至少有三种可能的解释。
第一种规则:主持人总是随机打开没有被参与者选择的门(例如,在上面的情境中,主持人掷一枚硬币来决定打开 2号或 3号门)。这表示主持人可能打开一扇门并展示出门后的轿车,然后(和观众一起)笑话你选错了门,游戏结束。
第二种规则:假设主持人总是挑选后面藏着山羊的门打开,决不打开参与者挑选的门;当参与者已然选中了藏有轿车的门,主持人就随机打开一扇门。这样,参与者的选择和主持人开门之间的关系就更复杂了。
第三种规则:假设主持人总是挑选藏有山羊的门打开,决不打开参与者挑选的门;在参与者已然选中了藏有轿车的门之后,主持人有偏向地挑选剩下两扇门中序号较小的一扇打开(针对这种规则可能存在其他偏差)。
尽管这三种规则均符合上述问题的表述,但其潜在概率却各不相同。
在上面的题目里,我们留意到,主持人前面有个定语:
假如他知晓汽车的下落。
那么问题来了,假如主持人不知道汽车在哪个门的后面,这时他打开B门,发现后面没有汽车,那你换不换?
答案是:不换。因为这时A和C后面有汽车的概率,都是1/2。
用贝叶斯定律可以非常简明地解答三门难题,证明:主持人是否知道实情,会令结果不一样。
有兴趣的同学可以研究下图(请将盒子换做门,原图中有些表述也不太精确,但公式和结果都是对的):
(以下是截图,略有错字。)
贝叶斯公式可以帮助我们正确地解答出这道题目,但是,能帮助我们真的理解这个问题吗?
并不能。
即使贝叶斯定理帮助我们正确地计算出了结果,但却与人的大脑直觉相违背。
否则,当年就不会有那么多教授和博士被“三门问题”羞辱。
朱迪亚·珀尔想用“因果图”来找到“三门问题”的可解释性。
B8
让我们看看因果图如何工作。
前面我说过,“三门问题”分作两种状况:
A:主持人知道车在哪个门后面,并且刻意选择了没有车的门;
B:主持人不知道车在哪个门后面。
先说情况A。绘制因果图如下:
主持人打开哪个门,这件事情受“你选的门”和“车的位置”这两个“因”的影响。
顺着因果图,你很容易发现,根据主持人打开的门,你可以顺着右侧的箭头,去发现不经意透露给你的“车的位置”这个信息。
所以,你选择换一个门,概率会提高;
再说情况B。绘制因果图如下:
因为这种情况下,主持人也不知道车在哪儿,所以右侧的因果箭头消失了。
所以,你最初选的门和另外一扇关着的门的中奖概率事件是一样的,你没必要换。
因果图看起来似乎只是画箭头,其实,箭头背后还隐藏着概率。
为什么如此简单的结构,会这么好用?
因为它承载了因果信息。
这么“简单”的一个问题,为什么会迷惑那么多聪明人呢?
原因如下:
1、我们的大脑(和直觉)不擅长处理概率,而是擅长处理因果;
2、就像我们的大脑会被“冰淇淋销量导致淹死的人增加”这类伪因果所迷惑,我们对隐藏的概率关联也会产生疑惑。
有两个聪明的家伙,阿莫斯·特沃斯基和丹尼尔·卡尼曼,发现了概率与心理学的交叉点,开启了行为科学和行为经济学。
我喜欢这两个人,还有塞勒。在他们的研究里,你能看到各种有趣的基于概率的实验,人类的认知偏差不仅可笑,而且高度一致。
我们的大脑不是为概率设计的,但概率却是这个世界运转的秘密。
当我们依赖祖传的直觉而非概率来做决策,非常容易干蠢事。
即使我们懂得概率,也尽量按照概率的程序来思考和决策,仍然会受到“框架效应”的限制。
我的分析是:
当面临一个概率问题时,很多人都能够解答;
当两个简单的概率问题叠加在一起的时候,绝大多数人靠心算其实都是无能为力的。
这就是为什么类似于“三门问题”这类极其简单的问题,会搞晕那么多聪明人。
聪明决策,处理风险,很多时候需要“反人性”的知识与情绪。
对于这个伟大的研究方向,从结构的完整性来说,我必须提一下。但也要尽快结束掉。且用《波尔–罗亚尔逻辑》第16章“关于未来事件我们应该做出的判断”的一段文字:
为了避恶趋善,我们必须对自己应该做什么加以判断。我们不仅需要考虑善与恶本身,也要考虑它们发生或不发生的概率,还要直观地考虑它们在整体中所占的比例。
这些考虑可能看似微不足道,如果仅此而已,那么确实如此。但是,我们可以让它们发挥重要作用,其中最主要的作用就是让我们更合理地面对希望与恐惧。
(摘录来自: 佩尔西·戴康尼斯. “10堂极简概率课)
B9
相关性对因果性的干扰,仅仅通过观察,还远远不能解决。
所以,《为什么》这本书提出:
“观察、干预和反事实这三个台阶组合成因果关系之梯”。
因果关系之梯的每一层级都有一种代表性生物。大多数动物和当前的学习机器都处于第一层级,它们通过关联进行学习。像早期人类这样的工具使用者则处于第二层级,前提是他们是有计划地采取行动而非仅靠模仿行事。我们也可以通过实验来习得干预的效果,这大概也是婴儿获取大多数因果知识的方式。反事实的学习者处于阶梯的顶级,他们可以想象并不存在的世界,并推测观察到的现象的原因为何。
(资料来源:马雅·哈雷尔绘图)
朱迪亚·珀尔解释道:
贝叶斯网络适用于一个所有问题都被简化为概率或者(用本章的术语来说就是)变量间的关联程度的世界,它无法自动升级到因果关系之梯的第二层级或第三层级。
幸运的是,我们只需要对其进行两次修正就可以实现它的升级。
朱迪亚·珀尔不甘心陷入因果蒙昧,而是试图跳出统计学的黑箱,借助因果关系之梯,阐明事物的本质。
他试图表达:
概率能将我们对静态世界的信念进行编码,而因果论则告诉我们,当世界被改变时,无论改变是通过干预还是通过想象实现的,概率是否会发生改变以及如何改变。
当然,贝叶斯网络仍然是人工智能领域的一个非常重要的工具,因为其涵盖了因果图的大部分数学基础。
B10
人们再一次站在了“因果论”的十字路口。
往回追溯,因果论和黑盒子经过4次值得一提的交锋。
第一次是巴比伦和古希腊之间的科学竞争。
哲学家Stephen Toulmin认为:
基于模型与盲模型的二分法,是理解巴比伦与古希腊科学之间竞争的关键。
他的解释非常有趣:
巴比伦天文学家是黑箱预测的高手,在准确性和一致性方面远远超过了古希腊人。
然而科学却青睐希腊天文学家的创造性思辨战略。
古希腊的埃拉托斯特尼测量出了地球的半径。这绝对不会发生在巴比伦。
第二次是牛顿为人类带来光明。
凯恩斯通过研究牛顿的手稿,发现牛顿并非理性时代的第一人,而是最后的魔法师。
牛顿对玫瑰十字会、占星术和命理学着迷。他相信摩西早就认识到哥白尼的日心说和自己的重力理论。
一方面,牛顿视上帝为造物主;
另一方面,牛顿认为无需干涉人间的杂事儿。
于是,牛顿“发现”了上帝创造这个世界所“使用”的理性和普遍原理。
《思想史》一书写到:令人惊奇的是,最近的学术界发现指出,如果牛顿没有在炼金术方面做研究,“就可能不会取得那些改变世界的发现”。
他的基于自然和可理性认知法则的宇宙观,为人类提供了一个基于因果的解释框架,改变了整个世界。
牛顿的世界里没有概率。当一个骰子被扔出去的时候,理论上我们只要知道初始数值,一切皆可计算。
“法国牛顿”拉普拉斯更是将这种决定论延展至整个宇宙,“我们可以把宇宙现在的状态视为其过去的果以及未来的因”,某个超级智者,也就是拉普拉斯妖,他如果知道所有的因,就能预测任何事物。
在牛顿追随者的眼中,概率是人类无知的产物。
我们这个时代,绝大多数人的思维仍然停留在牛顿时代,但又不具备牛顿在物理和数学方面的理性,然后口头上又在谈量子力学。
不管他们对量子力学如何叶公好龙,他们的骨子里相信“决定论”。但又是虚无主义的那种决定论。
第三次是爱因斯坦与玻尔的争论。
尽管量子理论是基于自己的理论发展而来,爱因斯坦却拒绝接受一个过于随机的解释:
用概率去解释电子的位置。
爱因斯坦不赞同量子力学的统计性质,他表示:
“我仍旧相信我们能够给出一个实在模型来直接描述事件本身,而不是它们发生的概率。”
他讨厌“量子纠缠”这类超距的、没有因果的鬼魅之力。
玻尔则反击:“没有量子世界,只有抽象量子力学描述。我们不应该以为物理学的工作是发现大自然的本质。物理只涉及我们怎样描述大自然。”
就哲学层面而言,我偏向于玻尔。物理科学在描述自然秩序方面的地位,必然是有限度的。
第四次则是当下人工智能的“黑箱之争”。
以前,AI的大部分从业者仍是通过逻辑来处理AI技术。例如深蓝的团队里,还是需要职业棋手的介入。
现在呢?受益于计算力的大幅提升,通过庞大的神经网络,用巨大的矢量来表示内部含义,不再采用逻辑推理的方法,人们让神经网络自己学习。
一切都变了。
与传统机器学习不同,深度学习是由AI直接从事物原始特征出发,自动学习,生成高级的认知结果。
在输入的数据和其输出的答案之间,存在着“隐层”,即所谓“黑箱”。
这个黑箱既无法观察,亦无法理解。
即使AI能够解释,我们也不懂。哥伦比亚大学的机器人学家 Hod Lipson称之为:
“这就像是向一条狗解释莎士比亚是谁。”
中国科学院院士、智源研究院学术委员会主席张钹将人工智能划分为如下三个时代:
第一代人工智能,以知识和经验为基础的推理模型,以失败告终;
第二代人工智能,是利用基于大数据的深度学习,获得了意想不到的成就,但算法不可解释(因果缺失);
第三代人工智能,是在目前第二代人工智能的基础上,加进人类的常识、知识,建立一个可解释的、鲁棒的人工智能理论,发展可信、安全和可靠的人工智能技术。
到目前为止,第三代还是一个设想。
科学家们正在为之努力。
哈萨比斯的野心是发明通用人工智能,假如实现了,因果与黑箱之争会不会就烟消云散了?
他认为深度学习是解决通用AI的一个组成部分,也许还需要更多类似深度学习的突破。需要更多的创新。
哈萨比斯对人工智能有着超人的洞察和极其乐观的态度。他有一个计算机学士学位,和一个认知神经科学的博士学位。
他用人类的大脑来做比喻:
大脑是一个综合系统,但大脑的不同部分负责不同的任务。
哈萨比斯率领的团队,正在研究的项目是:
我们能否从自己的感知构建,利用深度学习系统,并从基本原则中学习?
我们能否一直构建,直到高级思维和符号思维?
人工智能对人肉智能的模仿,还有很长的路要走。
本文的A部分,关于错觉和概率计算;
本文的B部分,关于因果论和人工智能;
本文的C部分,是概率权和物理世界的关联。
我们再来看本文最后一道题目:
谁是幸运的罪犯?
三个死刑犯被关押在监狱的单人间里。法官赦免了其中一个,看守知道是谁,但不能说。
犯人A对看守说:我知道你尽忠职守,所以我也不为难你问你被赦免的人到底是谁,但请你告诉我,B和C谁会被执行死刑?
看守想了一下,觉得有道理,因为B和C里面至少有一个人仍会被执行死刑,所以告诉A有啥关系呢?
于是看守说:B会被处死。
犯人A很开心,因为:
此前被赦免的一个名额(可能性),是被三个人分享的,自己分到的概率是1/3。
现在呢?因为确认B肯定被处死,所以自己活下来的可能性从1/3提升到了1/2。
A将这件事情告诉了犯人C。
C更高兴了,他认为:
自己被赦免的概率从1/3变成了2/3,而A活下来的概率并非1/2,而是1/3。
请问A和C到底谁对?
答案是:C对。
那么,A的逻辑到底错在哪儿呢?
不管主持人是否知道B门后面没有汽车,他都是做的相同的动作(打开B门),并且得到了相同的结果(B门后面没有汽车),为什么会有截然不同的答案?
又比如说:假如主持人知道哪个门后面有汽车,但是开门的时候如果他假装自己真的不知道,只是随机地开门,会怎么样?
难道仅用意识,就能驱动这个世界?
这不是反科学吗?
我是一个物理爱好者,我必须从“力”的角度,找到某个“实在”的因,才能接受那个果。
我的思考是:假如主持人知道车在哪里,对比不知道,即使做了相同的动作,他引入了额外的信息。
这是一个在大脑中做功的过程。
做功是能量由一种形式转化为另一种的形式的过程。做功的两个必要因素:作用在物体上的力和物体在力的方向上通过的距离。
经典力学的定义是:当一个力作用在物体上,并使物体在力的方向上通过了一段距离,力学中就说这个力对物体做了功。
那么,在大脑中如何做功呢?
重新分配概率。
主持人假如知道门后面是否有车,以及主动选择了没有车的门,那么,他就在做功了。
C3
我不相信任何鬼魅之力。
尽管我喜欢神秘的体验,但我不喜欢神秘主义的解释。
即使我们在现实或者假想中,总是会遇到各种妖魔鬼怪。
例如麦克斯韦妖。
(以下来自维基百科。)
麦克斯韦妖,是在物理学中假想的妖,能探测并控制单个分子的运动,于1871年由英国物理学家詹姆斯·麦克斯韦为了说明违反热力学第二定律的可能性而设想的。
如图,一个绝热容器被分成相等的两格,中间是由绿色的“妖”控制的一扇小“门”,容器中的空气分子作无规则热运动时会向门上撞击,“门”可以选择性地将速度较快的分子放入一格,而较慢的分子放入另一格,这样,其中的一格就会比另外一格温度高,可以利用此温差,驱动热机做功。
这是第二类永动机的一个范例。
也就是说,假如我们忽略开门关门的做功,这个绿色的小妖怪,“成功”地造出了一台永动机。
我们知道,这是不可能的。问题出在哪儿呢?
张天蓉在博客中描写了人类揭开“麦克斯韦妖”的面纱的过程。
这只妖怪是神人麦克斯韦的一个思想实验。
另外一个叫希拉德的神人,于1929年也做了一个聪明绝顶的思想实验。
希拉德的单分子引擎
如上图,希拉德根据麦克斯韦的模型,构造了一个只管理“一个”分子的简化妖精系统。
麦克斯韦妖操控一个单分子热机。小妖精通过测量,了解分子所处的位置是在左侧还是右侧:
如果结果是左侧,则在分子的右侧放一个隔板,在系统的左边通过一根细绳连接一个重物,单个分子气体经历一个等温过程,通过从环境吸热而膨胀,并提升重物做功;
如果结果是右侧,则将重物悬挂于系统的右边而得到功。
希拉德更加生动地制造出了一个违背第二定律的永动机,这可能吗?
说到这里,你也许会理解,我为什么要在一篇关于概率的文章里,说到一个关于热力学的思想实验。
希拉德想要思考的是:
如果我们允许一个智慧生物对热力学系统进行干预的话,在何种情况下能够成立一种第二类永动机?
回想一下“三门问题”,主持人在打开第二扇门时,如果他知情并且刻意避开有车的那个门,他其实就是那个“干预”的智慧生物。
回到希拉德的思想实验。他的解释是:
问题出在“测量”上。
小妖精进行测量的目的是为了获得信息,即在每次完成循环回复系统原状的过程中至少需要获得二进制中一个比特的信息。信息的获取需要付出代价,就是使得周边环境的熵增加。
因此,系统“热熵”的减少是来自于小妖精测量过程中“信息熵”的增加。
系统总熵值因而也增加,热力学第二定律仍然成立。
尽管要在近20年之后,才由怪人香农提出信息论,但是希拉德第一次认识到信息的物理本质,将信息与能量消耗联系起来:
信息就是熵。
1961年,物理学家罗夫·兰道尔提出并证明了兰道尔原理:
计算机在删除信息的过程中会对环境释放出极少的热量。
1981年,贝内特的一篇论文表明,麦克斯韦妖控制“门”使分子从一格进入另一格中的耗散过程,并不是发生在衡量过程中,而是发生在妖的对上个分子判断“记忆”的去除过程,且这个过程是逻辑不可逆的。
2012年,德国奥格斯堡大学的鲁兹(Eric Lutz)和他的同事,用实验验证兰道尔的信息擦除原理,根据实验结果得出信息的消除具体需要多少能量,证明了兰道尔的理论确实是正确的。
所以,信息是一个物理实体吗?
C4
让我们回到三门问题。
现在我的兴趣已经不是概率计算,而是概率如何干预这个实在的物理世界。
当主持人知情并刻意选择,他其实是“指定”了B门。
当可怜的观众们要面临一个未知的世界,做出不确定的选择的时候,主持人其实是一个无所不知的智能生物。
他干预了“不确定性”的分配。
主持人通过做功,重新分配了概率。
不管主持人是否知道B后面是否有车,他其实都引入了新的信息(B门后面没车)。
当他知道的时候,是主动干预;
当他不知道的时候,是被动刷新。
这二种情况的结果是不一样的。
这意味着:
获取信息的方式,和信息本身一样重要。
让我们绕开“先验概率”和“贝叶斯定律”这些知识和公式,用一种人的大脑直觉可以理解的因果逻辑来思考:
假如主持人不知道B门后面有没有汽车,那么他随机打开B门并发现是羊,只是关掉了B门后面是汽车的一连串平行世界,这部分可能性被分配给了A和C;
假如主持人知道B门后面没有汽车,那么B门和C门后面有车的各自1/3、合计2/3有车可能性的平行世界,完全都在他的掌控下,他主动选择了关掉B门后面1/3有车可能性的平行世界,并将其概率赋予给了C门。
你要是愿意去画一个平行宇宙图,会更直观地理解这一点。
那个知道底牌的主持人,就是“麦克斯韦妖”。
C5
尽管我个人喜欢用“平行宇宙”的可视方法,来解释不那么可视的概率问题,但不代表我喜欢这个概念。
平行宇宙(多重宇宙)论,称我们的宇宙之外,很可能还存在着其他的宇宙,而这些宇宙是宇宙的可能状态的一种反应,这些宇宙可能其基本物理常数和我们所认知的宇宙相同,也可能不同。
平行宇宙经常被用以说明:一个事件不同的过程或一个不同的决定的后续发展是存在于不同的平行宇宙中的。
举个例子,一个随机的骰子被扔起来,在空中高速旋转(快到牛顿力学的摄像机和拉普拉斯妖都无法计算),哪个数字会落在上面?
从概率角度看,每个数字朝上的机会是一样的。既然如此,用平行宇宙法,我们可以想象在某个瞬间,未来分裂成六个平行宇宙。
最后猜测哪个数字朝上,其实是确认观察者落在了哪个平行宇宙。观察中所获取的信息,用于关闭那些不符合的平行宇宙(或是缩小概率),确认那些符合的(或是增大概率)。
弦理论物理学家布赖恩·格林在《宇宙的结构:空间、时间以及真实性的意义》一书里说:
时间并不是我们通常所说的河流,不断地从过去流向未来;
时间的河流实际更像一块巨大的冰块,每一刻都冻结了所有的宇宙事件;
人类的意识,或者说记忆就像电影院里放映机的光,不断地照射到冰块上,照亮的那一帧就成为现实,冰块的其它部分没有被照亮,那就是过去或未来。
这段话很诗意,但似乎混淆了一个人类的困境:
困扰我们的是,到底哪些是现实?哪些只是人类的谬误投射在现实之上的幻觉?
C6
以物理世界的发明创造征服了硅谷的埃隆•马斯克,直接跳过了“观念论”和“实在论”的对立,他声称,我们生活在真实现实世界的可能性只有10亿分之一。
埃隆•马斯克称,宇宙的绝对年龄是138亿年,这意味着外星文明有足够的时间来开发一套复杂系统。
“假设以任何速度的发展,游戏都将与现实无异,否则一个文明将会被终结,二者必然发生其一。因此,我们很可能生活在虚拟世界中。”
“我认为最有可能的是,有很多虚拟世界存在,这只是概率问题,你也可以称其为现实,或者也可以称其为多元宇宙。”
麻省理工学院Play Labs负责人、计算机科学家Rizwan Virk也是一个“模拟理论”的信徒。
Virk表示,我们周围的一切,包括地球和宇宙,都是一个非常复杂的MMORPG (大型多人在线角色扮演游戏)的一部分,而我们都是这个游戏的玩家。
一种可能是,我们都是其他人计算机上运行着的模拟系统中的AI;
另一种可能是,我们是游戏中的“玩家角色”,有意识地存在于模拟世界之外,就像在RPG游戏中扮演精灵或矮人一样。
人间也许是无所不能的神们营造的一个沉浸式游戏,这个游戏提供了神所没有、所向往的不可知、不可逆和随机性。
因为无所不能的神们自己的一切尽在控制的日子是徒劳而绝望的。
那么,我想问:这个游戏的秘诀是什么?
我们到底只是为了赢?
还是超级物种仅仅为了体验低级物种的无助和随机?
假如我们的世界真的只是一个游戏,它太真实了。
正如埃隆•马斯克所说,
“如果生命是电子游戏,那么画面就很棒,但是情节令人困惑,而且教程太长了。”
C7
事实上,我们无需幻想,虚拟世界已经在覆盖现实世界。
一个最直观的指标是:
钱。
商业世界的权力,正在快速向虚拟世界转移。那些只生产“数字”的公司,开始统治世界。
物理世界和人的行为,越来越数字化。人和人之间的关系,人和物之间的关系,被投影到一个虚幻的世界。
我称之为数字化殖民地的建立。
人类历史上最有钱的公司,以前是物理殖民地公司,现在是数字化殖民地公司。
凯文•凯利对未来的科技发展趋势进行了预测,关键词就是:
镜像世界。
他认为,镜像世界是未来20年将出现的一次重大变革,这种变革将当今存在的数字世界(如物联网、3D模型、SLAM等)层层叠加到现实的物理世界中。
就像人与人之间的连接(社交媒体),以及世界上所有信息的连接(互联网)一样,镜像世界将物理世界与虚拟的数字信息链接起来,在人与计算机之间创造出一种无缝的交互体验。
在未来世界里,真实世界里的每个东西都会有一个芯片,整个世界都将被数字化,一切都将在虚拟数字世界里有一个复制品,像是现实世界的一面镜子。
这意味着什么?
虚拟世界的商业统治者,将比现实世界的商业统治者更能够分配成员之间的概率权。
我的这个观点的推理逻辑如下:
1、在镜像世界,商业统治者仅仅通过驱动你的“数字化投影”,就能驱动你物理世界和银行账户的一切;
2、商业统治者在数字世界,仅仅通过分配概率权,就能够获取被统治者的臣服、欢愉和奉献;
3、硅谷模式,精益创业,都是数字化时代的产物。
数字商业世界的流量买卖,IP价值,网红经济,量化交易,都是“分配概率权”的商业游戏。
当主持人犹如掌握魔法般,重新分配了大门之后汽车的中奖概率,象征着虚拟(数字)世界的麦克斯韦妖,只需借助一点点信息,就能比无所不能的拉普拉斯妖更轻巧地改变一个个体的命运。
C8
我很好奇,假如我只是一个游戏玩家,完全不自知地沉浸在“我”的这个角色中,假如我醒来,会在哪里?
醒来之后我要说的第一句话是:谁设计的这么糟糕的游戏?
当然,我无法想象,假如这个游戏去除了愚蠢、贪婪、残忍,会变成怎样。
无论这个世界是真是假,无论我是一个虚拟的角色,还是一个沉浸在角色中的玩家自己,至少在此刻,我是存在的。
“被感知的是不存在的,存在的只是感知它的心灵。”
如此一来,这个世界是真是假,其实无所谓了。
在休谟看来,“本体”是否存在并不重要,重要的是:
各种感觉之间的因果关系、串连、以及彼此之间的类似。
对于因果关系,休谟主张:
“我们无从得知因果之间的关系,只能得知某些事物总是会连结在一起,而这些事物在过去的经验里又是从不曾分开过的。
我们并不能看透连结这些事物背后的理性为何,我们只能观察到这些事物的本身,并且发现这些事物总是透过一种经常的连结而被我们在想像中归类。”
在抛弃了对因果关系的“必然性”的信仰之后,休谟神奇般地逃离了哲学家们在自由意志上的困境:
假如所有的事件都由原因“因果分明”地“决定”,我们的自由意志在哪儿?
就像假如拉普拉斯妖真的存在,它能够知道组成你我的每一个分子原子电子,能够知道每个人必然的命运。
幸好不是如此。
《经验主义》一书说:
因此,人类行为没有“必然性”。但人类还是自由的,因为他们自己就是其行为的原因。
这意味着,尽管我们每个人的命运像一个翻转着的骰子,但是仍然拥有这个骰子的概率权。
这真是一个奇妙的设计。
C9
没有证据表明,贝叶斯是为了反驳休谟,而提出了贝叶斯公式。
但极有可能,休谟启发了贝叶斯(的反驳)。
休谟在1748年出版的《人类理解研究》中写道:
尽管世界上并不存在概率这种事物,但由于我们不知道任何事件的真实原因,因此我们的无知对理解产生了同样的影响,并产生了一种类似的信念或观点。
我们在做一切推断时,都会在习惯的支配下将过去的经验套用到将来的头上。
虽然我们会倾向于最常见的结果,并且相信这种结果肯定会发生,但我们也不应当忽略其他结果。
当然,我们必须按照它们发生频率的多少,赋予每个结果或多或少的权重和信度。
贝叶斯在他那篇神秘的文章里,找到了一种判断概率的方法:
假设对于某个事件,我们只知道它在某些情况下发生的次数和失败的次数。借助他设计的方法,我们就可以判断出在相同情况下该事件发生的概率。
也没有证据表明,贝叶斯公式是为了证明上帝的存在。
然而,这个公式惊人的简洁,和强大的力量,却仿佛是上帝的作品。
C10
关于贝叶斯公式在现实世界所创造的奇迹,很多看起来都像是神迹般的传说。
例如图灵二战期间破解德军的密码,就运用了贝叶斯的理念。
所有这些故事里,我喜欢下面这个搜救船员的传奇。
2013年7月的一个晚上,一个捕虾船的船员失踪了。海岸警卫队发现自己要面对的是一项不可能的任务:
没有确切的失踪时间和失踪地点;
要在4000平方公里的海域里找到一个人。
这就像是大海捞针。
警卫队采用了一个叫做“搜救优化计划系统”的神奇工具,这其实是一个算法,根据模糊的线索,结合当地条件等因素,大幅缩小搜救范围。
类似的案例不止一个,开始的时候看起来很不靠谱,但是,算法根据搜索结果,不断更新路线。
希望有时在毫无希望的地方孕育而生,是因为“毫无希望”剔除掉了对那些“看起来似乎可以依附的希望”的幻想。
在这个故事里,7个小时过去了,搜救人员一无所获,决定返回基地加油。
这时副驾驶突然大喊起来。他们调转方向,发现失踪船员正被裹挟在汹涌的大海中,拼命向飞机挥手。
简单的贝叶斯公式,很少的信息,就可以在汪洋大海中,救起一个人–这是一个关于命运、信念和算法的隐喻:
我们的人生绝大多数时候,都犹如置身无边无际的大海,只拥有极少的已知条件。
但绝大多数时候,我们有限的努力,笨拙的推理,都能令自己脱离险境。
生活通过(对你以为的“真相”)说不的方式,帮助你一步步逼近真相。
那个相信上帝的贝叶斯牧师创造出来的公式,仿佛在告诉我们:
你的自由意志,恰恰存在于你在这个世界的每一次探索和挣扎中,存在于你永不放弃的概率权。
最后
如果我叫喊,谁将在天使的序列中
听到我?即使他们之中有一位突然
把我拥到他胸前,我也将在他那更强大的
存在的力量中消失。因为美不是什么
而是我们刚好可以承受的恐怖的开始,
而我们之所以这样赞许它是因为它安详地
不屑于毁灭我们。每一位天使都是可怕的。
因此我抑制自己,吞下深处黑暗的
呜咽的叫声。啊,我们需要时
可以求助于谁?不是天使,不是人;
就连那些知道的野兽也意识到
在这个被解释的世界我们
并不感到很安全。
我格外喜欢《里尔克·杜伊诺哀歌:第一首哀歌》开篇的这一段充满张力的诗句。
贝叶斯公式也有某种莫名的张力。例如信念与计算,模糊与精确,过去与未来,实在与幻觉。
类似于先验概率和后验概率的飞轮转动,我们似乎是(且只能)在比较和改变中感知并理解这个世界。
借助于条件变化和时间差,我们在温差中感知到冷暖,在爱恨中体验到情感,在得失中感受到拥有,在起伏中触碰到意义。
从理性的角度,贝叶斯告诉我们,哪怕初始细微而孱弱,你依然可以通过永不放弃的微小努力,一步步逼近真相;
从感性的角度,贝叶斯帮助我们避免陷入“一切命中注定”的虚无,让每个人在自己的触碰中平等地“自我存在”。
假如真有一个造物主,祂为何如此设计?
有人说,上帝是个程序员,祂通过调节参数,来调整每个人的命运。
假如果真如此,祂一定不会亲力亲为地控制每个人的参数,而只会设计一套算法,把旋钮交给每个人自己。
这套算法中,也许会有这样一个参数:
概率权。
我好奇已知和未知的尺度,好奇人类与地球、地球与宇宙之间的尺度比例,更好奇此刻与生命、生命与永恒之间的尺度比例。
有天早晨,我看见阳光从百叶窗间斜射入书房,不由得写下:
“这个世界只给我很小的一个角落,
很短的一段时间,
遇见很少一些人,
经历很简单的事,
却令我产生如此真实的感知了整个世界的幻觉。”
本篇文章来源于微信公众号: 孤独大脑