Archive for category 骇版科普

自然的阴谋论和不自然的科学思维

你相信“巧合”吗?

当然相信。世界非常大而且非常复杂,每天要发生很多很多事,绝大多数事情之间并没有什么因果关系。可是正如人很善于在本来没有规律的地方寻找规律,我们也非常擅长在本来没有联系的事情中发现联系,并且用一个简单理论对这些事情进行解读。

我的理论没有什么进一步的证据,而且我也不需要什么进一步的证据,但是我的理论可以解释这些看似“自然”其实“不自然”的事件,我发现其背后有一个不可告人的目的。这种解读,就是阴谋论。

 


1. 美国的阴谋

比如2014年3月马航MH370航班事故发生之初,整个事件还在被定性为“失联”期间,互联网上充斥着各种阴谋论。其中有一个理论说,马航失联其实是中美“两个大佬”较量的结果,而且中方目前稳操胜券。这篇奇文把近期的国际形势 — 包括乌克兰局势紧张、日本右翼政府的态度软化、朝鲜半岛的微妙变化、西方阵营出现的裂痕和泰国局势未能朝预期方向发展 — 和国内形势 — 改革进展、两会前金融波动、昆明火车站恐怖袭击和河南隧道爆炸事故,都通通联系在一起,认为只有全盘考虑这些因素,还要结合“三年前发生在菲律宾马尼拉的人质事件与奥巴马即将在四月展开的访问活动”,才能理解一架客机为什么会失联。

如果你觉得这个逻辑实在太不可思议,那是因为你不经常上网看时事军事论坛。有人专门写这种文章。他们旁征博引无所不知,从国际政治讲到国内形势,最后主题归于两点:第一,所有坏事,都是国际敌对势力故意针对中国搞出来的;第二,所有好事,都是中国政府巧妙安排的。总而言之,中央正在跟美国下一盘很大的棋。

当然,也有人认为中美两国政府都不是世界上最强的力量 — 真正的大boss是罗斯柴尔德家族。我曾经兴冲冲地买过一本《货币战争》,而且真的被书中前面的阴谋故事所吸引,一直看到罗斯福才把书扔了。

中国流行国际大棋论,美国则流行专门针对美国政府的阴谋论,而且相信的人很可能并不比中国少。芝加哥大学的研究人员最近针对以下六个最流行的医学阴谋论对1300个美国人进行了调查

  1. FDA为了医药公司利益而禁止自然疗法;
  2. 政府明知手机致癌而不作为;
  3. CIA故意让美国黑人感染艾滋病毒;
  4. 转基因食品是削减人口的秘密手段;
  5. 医生和政府明知疫苗会导致孤独症;
  6. 公共饮用水加氟是化学公司排污的手段.

结果发现,49%的美国人至少相信其中一个,18%的美国人相信三个。所以这其实是一个人们普遍相信阴谋论的时代。

相信阴谋论很可能是人的一个思维本能。人们总是希望能给复杂而混乱的世界找个简单的解释,这个解释就是有某个强大的力量,怀着一个不可告人的目的,在控制一切。据Kent大学的几位心理学家研究 [Scientific American (September 2012), 307, 91. ]发现,相信一种阴谋论的人,往往也会相信其它阴谋论,甚至是互相矛盾的阴谋论。越相信戴安娜其实并没有死是假死的人,越容易相信戴安娜其实是被谋杀的 — 反正政府有些事没告诉我们!

所有这些阴谋论都有一个共同的思维模式。这个思维模式就是不承认巧合,不承认有些事情是自然发生的,认为一切的背后都是有联系,都有目的。

这种思维有道理吗?我们必须承认这个世界上的确有阴谋,不可能所有政府在任何时候都是无辜的。但是阴谋是有限度的。根据Business Insider一篇文章考证,以下这个九个美国政府的阴谋,是真实发生了的:

  1. 禁酒令期间,美国政府曾经故意往工业酒精中加入某些化学品使其不能被转化成可用于兑酒的普通酒精,这些化学品是致命的,而且造成超过一千人死亡;
  2. 公共卫生机构打着治病的旗号征召了感染梅毒的黑人来做研究,却从未真正给人治疗;
  3. 超过一亿美国人使用的小儿麻痹症疫苗被一种病毒感染,有研究认为这个病毒会导致癌症,但政府并没有采取有效行动;
  4. 导致越战全面升级的“北部湾事件”中的某些冲突其实并未发生,是美国故意夸大来作为战争借口;
  5. 军方曾经计划在国内搞恐怖袭击嫁祸古巴 — 未能实行,但的确计划了;
  6. 政府曾经在受试者不知情的情况下拿美国和加拿大公民做毒品人体实验;
  7. CIA曾秘密在太平洋打捞一艘苏联潜艇,其上有三颗带有核弹头的导弹;
  8. 美国政府曾经违反禁运协议向伊朗出售武器,并把钱用于资助尼加拉瓜武装;
  9. 海湾战争前夕,一个十五岁的科威特女孩在美国国会作证,说她目睹了伊拉克士兵把婴儿摔死在地上。事后证明这个女孩是科威特驻美大使的女儿,整个作证是公关公司导演的。

跟前面那六个最流行的(仅限于医学相关的)阴谋论相比,这九个真正的阴谋坏到了什么程度?光难度就至少低了一个数量级。

正如林肯说“你可以在所有的时间欺骗一部分人,也可以在一段时间欺骗所有的人,但你不可能在所有的时间欺骗所有的人。”想要完成一个阴谋非常困难,而且就算做成了也有很大的曝光风险。一个整天在军事论坛看阴谋论的人,如果看了这些真实发生了的阴谋,可能会觉得美国政府原来没有想象的那么坏。事实上,维基解密网站曝光了一批美国政府的外交密件之后,《金融时报》专栏作家吉迪恩·拉赫曼发表评论文章认为这反而提高了美国政府的形象,他说

无论是欧洲和拉美的左翼人士,还是中国和俄罗斯的民族主义右翼人士,长期以来都一直近乎肯定的认为,美国人关于其外交政策的一切公开说辞,只不过是在为某种秘密议程打掩护。该议程可因兴趣而变,或者为了照顾大公司(哈里伯顿(Halliburton)!)的利益,或者为了颠覆某个左翼政府,或者为了削弱对手国家。无论美国的秘密议程是什么,它肯定是存在的——只有那些天真到愚蠢的人才不这么认为。

 

……

然而,经过长达两周的曝料,维基解密非常充分地揭示出,美国在任何特定问题上所持的公开立场,通常与非公开立场并无两样。目前仍有许多电报尚未曝光,或许其中还潜藏着一些惊人的事件。但是,过去两周曝光的文件罕有证据证明,美国外交政策中存在耍两面派或背信弃义之处。世界各地的阴谋论者对此一定非常失望。

 


2. 合理性与可能性

 

想要对任何事情的真伪都给以正确判断是不可能的,我们只能在有限的条件下合理评估每件事的可能性。阴谋论之所以不足信,并不是因为我们不应该质疑政府 — 每个人都有权质疑政府 — 而是因为其成立的可能性很低。

诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考,快与慢》这本书中总结了人的种种认知偏误,其中有一个偏误,在我看来非常适合说明阴谋论思维的错误。卡尼曼说,假设有一个叫Linda的单身女性,31岁,直率而聪明。作为哲学系学生的她曾经非常关注歧视和社会公正,并且参加过反核游行。根据这些情况,请你评估以下对Linda的种种描述之中,各自的可能性大小排名:

  • Linda是个小学老师;
  • ……
  • Linda是个银行出纳员;
  • Linda是个买保险的;
  • Linda是个热衷于女权运动的银行出纳员。

结果几乎所有受试者都认为“Linda是个热衷于女权运动的银行出纳员”的可能性,比“Linda是个银行出纳员”更高。但这是不对的!A和B同时成立的可能性小于等于A成立的可能性,这是概率论的常识啊!

如果你答错了,不要自责,因为这个问题就连斯坦福大学决策科学专业的博士研究生都有85%的人答错。卡尼曼最后干脆把其他选项都拿掉,就问受试者“Linda是个银行出纳员”和“Linda是个热衷于女权运动的银行出纳员”哪个可能性更大,仍然有85%到90%的本科生答错。这个错误的原因在于人们搞不清“合理性(plausibility”和“可能性(probability”的区别。“热衷于女权运动”增加了对Linda描述的合理性,但是却降低了可能性。另一个类似的例子是这样的:

  1. 明年北美会发生一场淹死一千人的大洪水;
  2. 明年加州地震,导致一场淹死一千人的大洪水。

2)比 1)更合理,但是显然,它的可能性更低。增加细节也许可以增加合理性,但是一定减少可能性。

现在我们可以回头谈阴谋论了。以下两个论断中,哪个可能性更高?

  1. 昆明恐怖袭击过后不久,又发生了马航失联事件;
  2. 大国博弈,导致昆明恐怖袭击过后不久,又发生了马航失联事件。

 


3. 目的与科学

世界非常复杂,很多事情似乎简直不可理解。为什么明明准备的很好的比赛也会输?为什么一个好人偏偏死于车祸?阴谋论可以让我们对这些事情至少找到一个理由。我们不但找理由,我们还找目的。

近代著名儿童心理学家让·皮亚杰(Jean Piaget)说,在儿童成长的某个阶段,他的世界观会有两个基本点。一个是“animism”,万物有灵。他认为每个物体都是活的,比如汽车之所以不走是因为它累了需要休息。更重要的是,东西有它自己的意愿,比如“太阳在跟着我们走”。另一个是“artificialism”,人为主义。小孩认为一切东西都是人出于某种目的造出来的。比如为什么会有太阳?太阳是人用火柴造出来照亮用的。

由此,在儿童的世界中根本就不存在随机现象,一切都是有目的的。生物学家Lewis Wolpert有本书叫The Unnatural Nature of Science,在此书中他指出,想要摆脱童稚状态搞科学,就必须首先抛弃这个目的论。

科学的标志,是对世界的运行给一套纯机械的机制。风怎么吹,石头怎么落下来,并不是说它有个目的,背后有个什么精神力量,而是物理定律决定了它就会这么做。有些事情发生就发生了,纯属自然,并不是谁“想让”它发生它才发生。比如艾滋病毒在黑人中传播最多,你可以去分析它的传播机制,但是这种传播并不一定有什么“目的”。

很多人研究自然科学为什么没有在中国发生。Ian Morris在Why The West Rules — For Now这本书中说,中国之所以没有自然科学,一个重要原因在于中国传统上认为天道是有目的的。我们认为上天有道德观,他降下自然灾害是对皇帝的警告,或者是对坏人的惩罚。孟子说“天将降大任于斯人也,必先苦其心志,劳其筋骨……”这段话什么意思?他说苦难是老天想考验你。

一般人可以含糊的把孟子的话解释成“我们可以把苦难当成上天对我们的考验”,而回避“上天是否真的会故意考验人”这个话题。但杨绛先生拒绝回避。在《走到人生边上》这本书的第八章一开头,她写道:

大自然的神明,我们已经肯定了。久经公认的科学定律,我们也都肯定了。牛顿在《原理》一书里说:“大自然不做徒劳无功的事 。不必要的,就是徒劳无功的 。”(Nature does nothing in vain。 The more is in vain when the less will do。 )(参看三联书店的《读书 》 2005年第三期 148页,何兆武《关于康德的第四批判》)哲学家从这条原理引导出他们的哲学 。我不懂哲学,只用来帮我自问自答,探索一些家常的道理。

大自然不做徒劳无功的事,那么,这个由造化小儿操纵的人世,这个累我们受委屈、受苦难的人世就是必要的了。

我不得不说,杨绛先生和何兆武都把牛顿的话给理解错了。这段话出自牛顿《原理》中“Rules of Reasoning in Philosophy”这一节,原文是

Rule I. We are to admit no more causes of natural things than such as are both true and sufficient to explain their appearances.

To this purpose the philosophers say that Nature does nothing in vain, and more is in vain when less will serve; for Nature is pleased with simplicity, and affects not the pomp of superfluous causes.

这里“more is in vain when less will serve”的意思是说,如果很少的理由就能解释自然,那么再列举更多的理由就是多余的了。整段话的意思实际是,解释自然界的一切,应该追求使用最少的原理。比如牛顿力学很简单,就足以解释自然届的各种现象 — 所以就没必要认为每个物体的每个运动背后都有它自己的特殊理由!而杨绛和何兆武这里把它解释成大自然是有“目的”的,他们理解成“大自然不会平白无故的让一些事情发生”了。

认为凡事都有个目的,是普通人思维区别于科学思维的根本之一。科学家会科学思维,但科学家也是普通人,脑子里有时候也会冒出目的论来。有研究曾经搞过一个目的论测试,拿一百个句子让受试者判断正误,其中有些句子是目的论的,比如“树生产氧气是为了让动物呼吸”。普通人会把50%的题目答错。这个研究让物理学家、化学家和地理学家来做这个测试,结果如果给他们足够多的时间思考,科学家的答错率只有(或者说“高达”,取决于你对科学家要求的严格程度)15%。

但是如果规定必须在三秒中内作出判断,科学家的答错率就会上升到29%。

既然最理性的人也有一颗阴谋论的心,我们就完全可以原谅中国文化、孟子和杨绛先生了。…

科学新闻没告诉你的那些事儿 4

怎样才算主流科学?

(果壳网)

“主流科学”在很多情况下并不是一个好词儿。科学记者眼中的主流科学界也许是一座可以威慑众生的殿堂,而对那些敢想敢干的年轻人来说,你跟他说主流科学认为怎么怎么样,他的第一反应是怎么证明这是错的。“主流科学”,在某种意义上是固步自封甚至以权压人的代名词。比如2011年诺贝尔化学奖得主谢赫特曼,在做出其获奖工作(发现准晶体)后相当长的一段时间内,就曾经饱受“主流科学”的打击。据新华社一篇文章报道,

他面对的是来自主流科学界、权威人物的质疑和嘲笑,因为当时大多数人都认为,“准晶体”违背科学界常识。“当我告诉人们,我发现了准晶体的时候,所有人都取笑我。”谢赫特曼在一份声明中说。

这个报道不能算说错。谢赫特曼本人的一个采访视频说的可能没有这么夸张,但仍然有点悲愤的情绪。准晶体被发现了,主流科学界却没有接受。既然如此,那么现在主流科学界拒绝接受的很多东西,将来是否也都有可能被证明是正确的呢?“主流科学”到底是不是一个贬义词呢?

本文试图通过仔细分析这个事件,来说明一个关于科学进步的道理。当然根据孤证不举的精神,你不能讲一个故事就说明一个道理 — 所以我们讲三个故事。

在谈论诺贝尔奖之前,我们先看主流科学是怎么让一个著名理论得不了奖的。

大陆漂移学说的故事

在《难以忽视的真相》纪录片的一开头,戈尔说了一件相当令人感叹的事。他说他六年级时候的一位同学,曾经在课堂上面对世界地图当场指出南美洲大陆似乎曾经跟非洲大陆是一体的。这其实就是大陆漂移学说,现在已经成了科学常识。然而戈尔上小学的那个年代这个学说还没有被“主流科学”接受,以至于他的老师立即告诉学生这纯属无稽之谈 — 根据戈尔说的戏剧性结局,后来这位具有非凡眼光的学生成了一事无成的毒瘾者,而老师却成了布什政府的科学顾问。

也许某些教育专家会痛心疾首地说“你看,天才就这么被扼杀了”。可是如果你是一个科学老师,你会怎么样呢?不管别人提出什么新奇的想法,你都鼓励“是啊,这真是个有意思的想法,我认为它有可能是对的”么?可是这样一来你所能提供的有效信息其实等于零。“一切皆有可能”,就是一切都不太可能。真正的科学家应该敢于直接了当地告诉别人哪些想法不可能正确 — 总统科学顾问更得有这个气质。哪怕最粗暴的判断,也比廉价的鼓励值钱。

早在1912年,也就是戈尔的小学同学出生之前,魏格纳(Alfred Wegener)就提出了大陆漂移假设,认为地球大陆最早是连成一片的。传说他也是看地图得到的灵感,但魏格纳并不是用小学生思维搞科研。除了各个大陆的形状看上去似乎能合在一起,他还有其它证据。一个很有说服力的论点是各大陆发现的古生物化石惊人地相似,乃至一些现代生物也是如此。鉴于这些生物不太可能渡海走那么远,唯一的解释似乎就是原始地球上这些大陆本是连在一起的。更进一步,人们发现几个不同大陆上有相同的岩石构造。不但如此,漂移学说还可以解释一些此前人们想不通的问题,比如说南极大陆上为什么会有煤 — 要知道煤是古代植物累积形成的,南极那么冷怎么会有这么多植物?

面对这么多证据,一般人也许会认为大陆漂移是显然的。但科学家不是一般人。卡尔萨跟说,“Extraordinary claims require extraordinary evidence”。超乎寻常的论断需要超乎寻常的证据。生物化石最多只能算间接证据。而一个论断想要被科学全面接受,除了要求超乎寻常的证据,还必须有一个机制。

关键是,科学家想不通为大陆怎么能漂移。比如,分裂大陆需要极大的能量,这些能量从哪里来?魏格纳曾经提出几个假说,都被一一否决了。结果大陆漂移学说在半个世纪内都是被主流所否定的。一直到后来人们发现地质板块边缘火山喷发和地震可以提供能量,并且的确发现了火山曾经在不同时期喷发的证据。再加上其它证据,比如发现海底岩石比陆地岩石年轻,才以“板块构造理论”承认了大陆漂移。这时候魏格纳已经死了。如果今天论功行赏,魏格纳提出的东西只能叫做“假说”,甚至连科学理论都不算。

这还是听起来合理的理论。而那些听起来不合理的理论,则就算你有证据也不太容易被接受。当然好消息是这样的理论一旦被接受,没准就是诺贝尔奖。

诺贝尔化学奖的故事

历史就好像非诚勿扰舞台上的女嘉宾。你离着很远看,和把她领回家细看,看到的东西都是真实的,但你可能会有不一样的人生感悟。新华社的报道相当简略。我们如果把谢赫特曼的讲话视频一篇被广泛转载的英文报道一个背景知识的介绍、以及以色列某杂志的一篇写得非常牛的长篇报道放在一起看,就会看到一个更有意思的故事。这个故事的每一步都值得深思。

谢赫特曼1982年在国家标准局的本职工作并不是去探索晶体科学的新突破,而仅仅是为航空工业寻找合金材料。不但如此,当时晶体理论已经相当成熟,什么样的原子对称结构能形成晶体是明明白白写在教科书上的。人们根本没指望发现新的晶体形态,就算发现也轮不到谢赫特曼。

某天上午,谢赫特曼用电子显微镜测定了他自己合成的一块铝锰合金的衍射图像,发现是一个正十边形的对称结构 — 对寻常晶体来说这是一个不可能的对称性,因为从数学上很容易证明你不可能用正十边形(或者简化到正五边形)去周期性地铺满平面。谢赫特曼认为这是一种全新的晶体,它的特点就是只具有准周期性,也就是“准晶”。

如果我们只看简单的新闻报道,下面的故事就是谢赫特曼跟每一个同事通报这个新发现,但是没人相信他,人们都认为晶体就应该是周期性结构,实验组领导指着教科书说他胡扯,然后把他赶走了。但这里有一个问题:衍射图像是明摆着的,难道他的同事们连十都不会数么?

事实上,同事们对他的这个衍射图像有一个解释:孪晶。人们早就知道孪晶可以出现类似正五边形旋转对称的衍射图像,但并不是一种新晶体。谢赫特曼进一步观察,他找不到孪晶,坚持说这是新晶体。现在的局面是同事们相信这种衍射图像有一个解释,谢赫特曼不接受这个解释。但不利的是,他也不能提供别的解释。

科学要求解释。你不能说“我看到这个现象,而你们解释的不对,所以它一定是个新东西”。全世界的实验室中可能每天都会产生一些看上去不太对的实验结果,它们中的绝大多数是……不对的。一个有个人荣誉感的科学家不会看到什么都发文章。你得给一个理论。1983年,Ilan Blech 帮谢赫特曼搞出了一个数学模型,二人这才决定发表论文,结果被APL编辑据稿。接下来谢赫特曼回到国家标准局,在John Cahn帮助下进一步完善了数学,然后找到一位真正的晶体学家Denis Gratias入伙,最后文章被PRL发表。

到这一步,“准晶”这个发现才算被正式的提了出来。谢赫特曼在论文中详细说明了这个特殊合金的制备过程,使得很多实验组重复验证了他的发现。然而一直到这一步,仍然只有少数科学家接受这是一种新晶体。

关键在于,谢赫特曼实验使用的是电子显微镜,而晶体学界的标准实验工具是更为精确的X射线,他们不太信任电子显微镜的结果。不能用X射线的原因是生长出来的晶体太小。一直到1987年终于有人生长出来足够大的准晶体,用X射线拍摄了更好的图像,科学家中的“主流”才接受了准晶的发现。这才是真正的转折点。等到人们在实验室中又发现各种别的准晶体,乃至于再自然界又发现天然准晶,准晶就已经是绝对的主流科学,谢赫特曼也开始什么奖都能拿了。

回顾整个过程,我们并没有看到所谓“学术权威”在其中能起到什么打压的作用。的确有个两届诺贝尔奖得主至死都反对准晶,但并没有听说他有什么徒子徒孙为其马首是瞻。搞科研不是两个门派打群架。科学家之所以从一开始就质疑,恰恰是因为证据还没有达到“超乎寻常”的地步。而当X射线图像一出来,不管那个诺奖大牛怎么说,“主流”立即就接受了。

我们看被主流科学“打压”,一般不会上升到人身攻击的地步……除非你的理论侮辱了“主流科学家”。比如说要求他们洗手。

洗手的故事

1840年代欧洲医院受到产褥热的困扰。1841到1846年,维也纳最好的一家医院里,产妇死亡率居然达到十分之一,到1847年甚至是六分之一。青年医生 Ignatz Semmelweis决心找到解决办法。他判断,当前这帮所谓“主流医生”根本不知道是什么导致产褥热。有些医生声称他们知道,而且还头头是道地列举原理,但他们就是解决不了问题。

Semmelweis的办法是索性抛开主流医学,干脆直接上数据分析。通过大量统计,他发现一个最不可思议的事实:如果产妇在家里生产,她的死亡概率比去医院至少低60倍!哪怕最穷的女人,在街上生了孩子再被送到医院的,也没有得产褥热。这使Semmelweis怀疑导致产褥热的不是别的,正是医院。

Semmelweis所在的医院有两个分开的病房,其中一个主要由医生负责,另一个则是助产士负责,产妇则被几乎随机地分配到这两个病房。Semmelweis暗中统计,发现医生负责的病房,产妇死亡率是助产士负责病房的两倍。难道是医生让产妇得病的么?他对这个问题百思不得其解。直到一个教授在指导学生解剖尸体的时候被学生的手术刀划到,然后患病死了,症状与产褥热相似,Semmelweis才获得灵感。他推测,是医生们离开解剖室直接进病房把什么能致病的“尸体颗粒(cadaverous particles)”带给了产妇。

而当时医院无比热衷于解剖,病人死了之后立即送解剖室。这可能就是为什么之前的时代为什么没有这么流行产褥热。

于是Semmelweis要求医生解剖后必须洗手,结果产妇死亡率马上降到了百分之一。

如果现在哪个医生能有这样的成就,说他是华佗在世也不为过,但Semmelweis结局是直接被主流医生“逼”疯了。Semmelweis不能解释“尸体颗粒”是什么东西,当时医学并没有微生物传播疾病这个概念。Semmelweis摆平了自己的医院,但其他医院的医生根本不买账,尤其反感他把病因归罪于医生。在Semmelweis看来这些医生是在迫害自己,他甚至自诩弥赛亚,最有居然得了精神病,死的很惨。

一直到一二十年以后,医学界才接受“微生物能传播疾病”这个理论。而Semmelweis?没人拿他当科学家,科学史只记载了发现微生物的人。顺便指出,一直到现在,医生仍然不怎么爱洗手,至少不如护士洗得多。

一个道理

在以上三个故事中,主流科学到底做错了什么?我的答案是什么都没做错。谁说对的理论一出来别人就得马上承认?

如果“主流科学”是一个人,他既不是仙风道骨的中国世外高人,也不是充满圣洁光辉的西方牧师,更不是温柔妩媚的小姑娘。他是一个淳朴实在的中年汉子。他认为任何事情背后都必须有明确的答案,明确到他可以把这答案原原本本地写在纸上让你看懂。他从来不让你“顿悟”,他从来不让你“信则灵”,他从来不让你“猜”。他有什么说什么,不跟你打机锋,不跟你玩隐喻,不跟你玩暗示。他不敢肯定自己的答案一定正确,但他敢用最明白的语言跟你辩论,一只说到你服为止。

或者你把他说服为止。科学研究是一个充满争论的过程。科学家要是不争论,科学就死了。比如现在超光速中微子,就远远没有被接受为主流科学。统计出来的东西尤其不能作为成熟理论,而只能作为科学研究的缘起。科学研究就是这么一个把新思想逐渐变成主流的过程。从这个意义上讲也许真正活跃的科学根本就没主流,或者说主流科学都是死的科学,更严格的说是凝固了的科学。

怎样才算主流科学?你必须得能用现有的理论去解释你的新理论。如果主流科学是一棵大树,你的新理论不能独立于这棵树之外。你必须告诉别人这棵树的这几个位置可以长出这么几个树枝来,而这些树枝可以连接到我的新理论上去 — 这样你的理论就成了这树的一部分。有时候你甚至可以宣布某个树干的真实形态其实不是人们之前想的那样,但你不可能宣布这棵树整个长错了。

Kevin Kelly 在 What Technology Wants 这本书里提到,早在哥伦布去美洲之前,美洲大陆就已经有人了,可是为什么我们说是哥伦布“发现”了美洲呢?因为是哥伦布把美洲大陆这个知识和人类科学的“主流知识”联系在了一起。“孤岛式知识”是不行的。

只此一家,别无分店。什么新东西都得从我这儿长出去,这就是科学的态度。这种态度干掉的错误想法比正确想法多得多,比如“水变油”、永动机、黑洞发电之类。只有这样的态度才能建立一个高效而严谨的学术体系。也只有这个体系才能确保一个实验结果可以经得起在任何时间任何地点重复,一个技术可以随便复制使用,既不要求使用者道德高尚人格完美,也不要求他掌握什么不可言传的心法。

如果经络和“气”能用实验证明,诊脉能机械化,阴阳运行能用数学方程描写,一直到《伤寒论》能出一个基于现代医学的解释版,那么中医就可以成为主流科学。将来谁能做到这些,谁就“发现”了中医。也只有这样,中医才能抛开掌握绝学的少数老师傅,变成像青霉素那样任何一个医院都能随便使用的有效技术。

如果“主流科学”真是小姑娘的话,向她求婚并得到许可并不容易。有时候可能你是对的,但她就是不理解,你悲愤也没用 — 可是你也不能因此就说她不是女人啊。

——

洗手的故事来自 Super Freakonomics 一书。…

科学新闻没告诉你的那些事儿 3

摆脱童稚状态

(果壳网)

中国民间有一个“七十三,八十四,阎王不请自己去”的说法,说在这两个年龄上的人更容易去世。这个定律从直觉上就不太可能是对的。我们设想,应该是因为孔子和孟子分别死于这两个年龄,人们认为这是人生中的两道大关,然后每当听说有人在这个年龄去世都会进一步加深印象,以至于总结了这个纯粹是错觉的定律。但有人不满足于直觉分析。

一篇网上流传的文章认为这是一个“科学家验证”了的规律:“科学家的回答是肯定的”。这篇文章说“科学家们经过了反复的研究”,发现“人的生命有一个周期性的规律,大致是7~8年为一个周期”,而73和84岁正是这个周期的低潮。我不知道这个周期学说是哪个科学家的理论,也许来自某人解读的《黄帝内经》罢。但问题不在这里。

问题是,这篇文章把“能找到一个理论解释”,当成判断一个学说是否科学的标准 — 如果能用理论解释,它就是科学验证了的么?

绝学与证据

不管你用来解释的理论对不对,这都是一个错误的判断标准。能用理论解释的结论未必正确,不能用理论解释的结论未必错误。古代文人的思维习惯,是遇到无法判断对错的局面就查经典,想获得理论上的指导。而科学家的方法则要朴素得多:你直接用事实验证一下不就行了么?我们根本不需要任何学派的任何医学知识,甚至不需要什么逻辑推理,只要随便找个死亡年龄分布数据就会发现73岁和84岁并不比其临近年龄更容易让人死亡。这个工作是如此简单,据说连北京电视台都做过。

古人说“为往圣继绝学”,很多现代人也追求用某种特定理论来指导实践,好像不用这个理论就对不起别人一样。科学家不从绝学出发,而选择从证据出发的根本原因不仅仅是科学尚未达到找到绝学的程度(物理学家仍未找到统一理论),更是因为就算有绝学也无法放之四海而皆准。就算我们完全知道人脑中每一个原子,进而到每一个大分子,进而到每一个细胞是怎么回事,也无法从中计算出心理学来 — 因为这是不同尺度上的问题,这种跨尺度的计算量大到了即使是科幻世界里也不可能的程度。

所以科学家强调事实。科学放弃了从一套最基本的哲学出发推导所有结论的尝试,改为在每一个领域内就事论事地搜集事实。有人指责科学家说你们相信现代科学理论难道不也是一种迷信么?但科学家其实不迷信任何理论 — 很多情况下他们完全用不上什么绝学,唯一做的事情就是把事实搜集在一起,就好像集邮一样。只要有证据,反驳一个理论是非常简单的事情。

但是要想用证据建立一个理论,则要困难得多。只有运气好的时候,科学家才能在大量事实中发现一些有趣的规律,以至于可以向形成科学理论的目标前进一步。

相关性思维

最简单的规律叫做“相关性”。人是如此复杂的东西,我们根本没办法精密计算各种物质致癌的概率,比如说吸烟对肺癌的作用。科学家常用的是没有什么技术含量,不需要任何高科技仪器,更谈不上什么门派的办法:他们直接调查吸烟人群和不吸烟人群的肺癌发病率。

这种研究要把被调查的人分组,比如分成两组:得了这种病的患者一组(叫病例组,case),没有这种病的人一组(对照组,control)。然后考察这两 组人在生活习惯上和饮食、吃药方面有什么不同。如果你发现患有肺癌的人中烟民比例显著地高于没有肺癌的人,你就得到了肺癌与吸烟的一个正的“相关性”。这个方法很简单,得到的证据却是强硬的。睡眠时间与判断力的关系孕妇焦虑与小孩任性的关系出生季节与平均寿命的关系 — 我们看到的大量科学新闻本质上都是相关性研究。

相关性研究只是科研的初级阶段。但就是这样它也已经超越了我们的思维本能。某些人只要被某地区生产的产品坑过一次,就会认为这个地区的所有产品都不好,他们的发现连相关性都算不上。我们每天看到铺天盖地的各种营养品的广告往往都能找到几个用户出来现身说法,可就是没有一个疗效相关性的数据。“一朝被蛇咬十年怕井绳”,是人这种动物的最自然思维,而使用大规模统计发现实在的相关性这个最简单的科学方法,是我们摆脱童稚状态的第一步。

绝大多数人没有相关性思维。比如在一篇讨伐网瘾的文章中,作者援引“戒网专家”陶宏开的数据说,

中国80%的青少年犯罪与网瘾有关,中国20%的网瘾少年有违法犯罪行为。

另一篇文章中则有人进一步指出

济南在押的1500名少年犯中,80%是“网瘾”造成的,北京更是有90%的青少年犯罪案与“网瘾”有关。

我们能否根据这些数字得出结论说网瘾人群比没有网瘾的人群更容易犯罪呢?

不能。我可以构建这么一个国家,这个国家80%以上的青少年有网瘾,而这个国家的所有青少年,不管有没有网瘾,都有20%的犯罪概率。这个虚拟国家完美符合以上数据,但是它的犯罪与网瘾完全无关。实际上,如果你把“网瘾”改成“钱”,甚至“空气”,那么我们可以说“中国xx%的青少年犯罪者都缺钱/需要空气,中国yy%的缺钱者/需要空气者有犯罪行为”,而缺钱和需要空气不是毛病。

这个错误就是没有建立对照组。我们缺少的关键数据是没有网瘾的青少年的犯罪率,以及没有犯罪的青少年的网瘾率。这是一个非常常见的错误。这就好比说列举再多“发达的民主国家”,也不能说明民主与发达的相关性,你还必须统计那些不发达的民主国家、不民主的发达国家、和既不发达也不民主的国家。

发现相关性,已经是一个足够发表的科学成就,但相关性结论并不能指导实际生活。假设我用无可质疑的统计事实告诉你“吸烟的人更容易得肺癌”,而你不想得肺癌,那么你是否能推论出应该因此戒烟呢?

怎样发现因果

还是不能。因为你无法从“吸烟的人更容易得肺癌”,和“肺癌患者大部分都爱吸烟”这两个统计得出“吸烟导致肺癌”这个因果。也可能肺癌导致吸烟,比如说也许癌变的肺会使人对烟产生需求。也可能存在某种基因,这种基因会使得一个人天生就容易得肺癌,而这种基因同时还让一个人天生就喜欢吸烟。也可能吸烟的人往往是喜欢深夜工作的人,是深夜工作导致肺癌。也可能吸烟的人往往是经济状况比较差的人,其居住环境和营养不行,是贫困导致肺癌。

有相关性未必说明有因果关系,这是一个非常重要的思维。中国青少年网络协会和中国传媒大学调查统计研究所发布的《2009年青少年网瘾调查报告》是一份值得发表的研究,因为其中给出了一些明确的相关性数据,比如:

自我评价学习成绩越不好的在校学生中,网瘾青少年的比例越高。认为自己“成绩较差”的学生中,网瘾青少年的比例达到28.7%,认为自己“成绩一般”的学生中,网瘾青少年的比例为14.5%。而自我评价“成绩很好”和“成绩较好”的 学生中,网瘾青少年的比例均在11%左右。

那么根据这份报告我们能否得出结论说网瘾是个坏东西呢?

不能。也许并不是因为网瘾导致青少年成绩差,而是那些成绩差的青少年更容易得网瘾。报告没有统计网瘾与犯罪率的关系,但就算真的是越有网瘾的人群越容易犯罪,我们仍然不能说网瘾导致犯罪。比如我可以提出这么一个假说:

我认为网瘾是个好东西,因为它可以减少青少年犯罪。在任何国家的任何时候,都一帮青少年对学习不感兴趣,整天无所事事。他们喜爱在街上游荡,都是潜在的犯罪者。因为网络游戏的出现,相当一部分这样的人被留在了家中和网吧里,他们的野性在游戏中得到了发泄,以至于减少了出去犯罪的欲望和时间。

报告和前面提到的所有统计数字都无法反驳我这个假说。我甚至可以用这份报告支持我的假说。报告中提到一个有意思的统计是“在社会经济发展水平低的城市,网瘾青少年的比例更高”,这正好可以说明无所事事的人更容易得网瘾。

想要明确证明吸烟导致肺癌,唯一的办法是做实验。找完全相同的两组健康的人,让其中一组吸烟另一组不吸,其它各方面生活都完全一致。20年之后如果吸烟组中的肺癌患者数高于不吸烟组,那么鉴于这两个组的唯一区别就是吸烟,我们就可以断定是吸烟导致了肺癌。

可是现实世界中根本不存在“完全相同”的两组人,这种理想实验无法进行。好在科学家有一个退而求其次的巧妙办法:找一群人,然后完全随机地把他们分为两组去做实验。在样本数足够大的情况下,随机性可以保证任何不同因素都可以大致均匀地分配到两个组里。这就是在关于人的研究中最重要,也是最可靠的办法。然而世界上不存在绝对完美的随机实验,比如为了让实验结果具备推广价值,样本应该尽量多样化,男女老幼,各种收入状况,各个种族都有才好,但这其实很难做到。很多实验心理学家选择的样本全是在校大学生,他们的结果能推广到所有人么?有人对此讥讽说他们研究的心理学应该叫“大学生心理学”。

更大的困难在于,大多数情况下你不能拿人做试验,比如不能逼人吸烟。这时候就只能被动地集邮,而通过纯粹的被动调查来做研究的方法叫做 epidemiology(流行病学)。最容易的流行病学研究是所谓回顾性(retrospective)的问卷调查:先找到病人,然后询问并比较他们的生活方式。这种调查的难度在于病人对自己以往生活的回忆常常不准确,甚至是有偏见的。他们可能会自己推断一种病因,然后刻意地强调这种病因。就好像想要讨好医生一样,那些得了肺癌的人可能会夸大自己的吸烟史。一个更可靠的办法是前瞻性(prospective)调查。比如说科学家想知道核辐射对人体的损害,现在日本地震导致核泄漏之后哪些地区的哪些人受到了辐射是非常明确的,根本不用对他们进行问卷调查,自然也就没有偏见。有了干净的初始数据,科学家只要长期跟踪这些被打了核辐射标签的人群,再跟正常人对比,就可以知道辐射对人体的影响。可是这里的困难就在于“长期”,核辐射的影响也许几十年才能看出来,那时候也许病人还没死科学家已经先死了。

比如“孕妇焦虑与小孩任性的关系”这个研究,唯一可行的办法就是流行病学的调查,你不可能拿孕妇做实验。一篇2008年的论文是回顾性的,研究者找到一个治疗儿童多动症(ADHD)诊所的6-12岁的203个孩子,询问他们的妈妈怀孕的时候是否有过心理压力,结果发现怀孕时心理压力越大的妈妈,其孩子的症状更明显一点。这就是一个不太可靠的研究,有谁准确记得自己6年前的心态?多动症儿童的妈妈很可能会为了配合一个理论而高估自己当初的焦虑。

一篇2011年的论文则是前瞻性的。研究者先锁定了澳大利亚某地的2900名孕妇,在怀孕的时候记录下离婚,搬家之类容易让人产生压力的事件。等她们的孩子长到2岁以后,再看其中哪些孩子有ADHD。这个研究就可靠得多了,而可靠的代价是研究要进行多年。

要想从流行病学研究中发现因果性,就必须尽可能的统计各种影响因素。怀孕压力与小孩多动症的相关性数据并不能直接说明压力导致多动症 — 也许那些在怀孕期间离婚的女人本身生活就不靠谱,是她们的不靠谱导致了孩子的多动症。所以这两篇论文都统计了一些其它的因素,比如孕妇是否吸烟喝酒啊,怀孕年龄啊,收入状况啊这些数字,然后使用统计方法把这些因素考虑进去(叫做 control),最后的结果才更有参考价值。可是你不可能统计所有的可能性,实际上两篇论文统计的项目就并不一致。这就需要把一系列论文放在一起综合分析。

不管调查到什么程度,都只是对真实世界的管中窥豹。科学研究的是有限的真理。当一篇论文说什么东西可能或者不可能导致什么疾病的时候,它说的其实是在这次研究所调查的这帮人里面有这么一个结论。这个结论能推广到所有人群么?记者一定比科学家更乐观。

科学的目标

得到因果性远远不是科学家的目标,科学不是一本写满什么东西会导致什么现象的菜谱。好的科学除了能证明因果关系之外,还必须有一个机制,得能解释为什么会有这种现象。比如二氧化碳增多导致全球变暖,其机制是二氧化碳是一种温室气体,它能够吸收从地面反射回空中的红外线,再把这个能量辐射出去促使大气温度升高。

相关性思维和因果性思维只是思维方式的转变,真正的技术含量在于发现机制。你必须说明是吸烟导致肺变黑,而变黑的肺容易得癌症,还是烟草中有什么化学物质可以直接致癌(正确答案是后者)。机制提出来之后,这个机制中的每一步也必须是可以验证的,一个课题只有做到这个程度才算超越了集邮阶段。也只有到了这个程度,才真正谈得上把各种不同机制综合在一起建立模型去预测未来。

有时候这个过程会反过来,也就是用现有的机制理论推导一些现象,再去寻找证据证实。但探索未知最基本科学方法是证据第一,然后谋求建立因果关系,然后是提出机制。仅仅是对其中一步作出很小的贡献,就可以发论文。大部分这样的论文事后会被证明没有太大意思,甚至是错误的。比如研究孕妇焦虑与儿童ADHD的论文虽然有好几篇,但它们说的其实是一个非常微弱的效应 — 也许将来我们会发现儿童多动症的真正原理根本就不是孕妇焦虑。但科学就是这么一个不断试错的过程。

每一篇论文都是我们从个人感觉到客观事实,从客观事实到因果关系,从因果关系到能推广使用的机制,这个过程中的一小步。这个过程的每一步都不是完美的,但只有这么做,我们才能摆脱童稚状态。

谨以此文标题纪念王小波。他曾经在这个标题下讲述过类似的道理。可惜大多数人只记住了他文章的结论和价值取向,而没有学会他使用的方法。比如据有识之士尼伯龙根·蜗藤指出,李银河就应该重读那篇文章。

科学新闻没告诉你的那些事儿 2

真空农场中的球形鸡

(果壳网)

美剧《生活大爆炸》曾经讲过一个好多观众没听懂的笑话。说有一个农民发现自己养的鸡都出问题不下蛋了,找一个物理学家帮忙。物理学家做了一番计算之后宣布我已经找到了一个解!但是这个解只对真空农场中的球形鸡有效。这个笑话的意思是物理学家使用了一个过分简化的模型去模拟真实世界。

更有效的模型大概需要考虑在空气中传播的病毒对存在空气的农场中的有下蛋器官的鸡的影响。但不管你使用什么模型,你必须得使用一个模型。任何科学研究中的任何计算都是针对科学家选择的模型,而不是针对“真实世界”本身。

有时候简化的模型已经足够好,比如我们要计算天体运行的轨道,把任何恒星和行星都简化为没有体积的质点就可以了。有时候是不得不简化。比如说如果要模拟全球气候,大概要考虑洋流运动和南北极冰川的影响,那么要不要考虑云的变化?要不要考虑太阳黑子的影响?要不要考虑植物分布的影响?要不要考虑冰岛火山爆发、喜马拉雅山、贝加尔湖、三峡大坝和中国春运的影响?在有限计算能力下不可能都考虑。但世界复杂并不是我们必须使用模型的本质原因。

我们必须使用模型的本质原因是,我们对世界的观察是主观的。霍金和 Leonard Mlodinow 在《大设计》这本书里讲了一个金鱼的故事,说意大利 Monza 市禁止在弯曲的碗状鱼缸里养金鱼,因为从弯曲的鱼缸往外看会看到一个扭曲了的现实,这对金鱼“太残酷了”。对此霍金提出一个庄子式问题:我们又怎么知道我们看到的现实不是扭曲的?金鱼仍然可以对鱼缸外部的世界总结一套物理定律。也许因为坐标系弯曲,金鱼总结的物理定律会比我们总结的要复杂一点,但简单只是个人品味,金鱼的物理学同样正确。

从这个角度说,所有物理定律,乃至所有科学理论,都只不过是主观模型。托勒密的理论说地球静止,太阳绕着地球转;而哥白尼的理论说太阳静止,地球绕着太阳转 — 这两个模型其实都可以用,只不过其中一个比另一个更好用一点。

物理学革命其实就是用一个模型取代另一个模型。我们可以把力解释成一种波动的场,或者空间的弯曲,或者一堆粒子的来回传递,或者又把各种粒子解释成弦的震动。当物理学家发明这些模型的时候,他们心里想的并不是“真实的力到底是什么东西呢?超弦理论符合我的世界观么?”这种哲学问题,他们想的是什么模型有效就用什么模型!

也许与模型无关的“现实概念”根本就不存在,霍金管这个思想叫“依赖模型的现实主义(model-dependent realism)”。这听上去有点像中国人说的“道可道非常道”,又有点像《论语》里面每次有不同的人问孔子“仁”是什么,孔子都给一个“依赖提问者的仁的定义”。但实际上这里面说的是科学这门业务的工作方式,是从来不直接追求那个“最后的,真正的现实”,而只是不停地用不同的模型去模拟现实。

也许有些科学家的确相信绝对真理的存在 — 但科学研究从来不涉及绝对真理。哲学才研究绝对真理。科学研究的是“有效的真理”,是“有限的真理”。两个古代哲学家坐在那里谈论天道怎么样,天道怎么样,说来说去只能是空对空。科学方法的第一个智慧就是我不直接用心去跟“天道”对话,我做几个实验,总结几条规律,形成一个不求天道但求有效的“模型”。

所以当一个科学家说一个真实世界中的什么东西会发生什么情况的时候,他说的实际意思是在他使用的那个模型里,这个东西对应的变量发生了什么状况。他说的是真空农场中的球形鸡1

在所有科学模型中理论物理是最成功的,而且成功到了不可思议的地步。量子电动力学并不是物理学家关于世界的最新模型,它把各种基本粒子都简单地当做球,完全不考虑原子核内部的相互作用,没有引力,但它却是一个相当完美的模型。它只用非常简单的几个方程,就能够描写原子核和引力之外几乎所有现象,而且这个模型无比精确。费曼曾经在一本通俗读物里自豪地写道,量子电动力学计算的电子自旋磁矩是1.00115965246个玻尔磁子,而实验测量的值1.00115965221,这个误差相当于横跨美国东西海岸,计算从波士顿到帕萨迪纳的距离,结果只差一根头发丝那么细。

我们可以无比准确地预言每一次日食,可以拦截导弹,甚至可以用遥控方法把探测器精确地放置在火星表面指定地点。这些并不完美的物理模型是如此的足够完美,有些人错误地以为科学就应该提供这么精确的答案。但事实是很多重要问题的模型根本做不到这一点。2008年金融危机给人的印象就是所有正规经济学家都没有预见到。格林斯潘说,“我们都错误判断了这个风险。所有人都没想到 — 学术界,联储,监管者。”一时之间批评经济学成了时尚,很多人认为经济学根本不能算科学。

我不知道经济学模型算不算科学,但的确有正规经济学家,在不使用阴谋论的情况下,预警过这场金融危机。去年,2500名经济学家投票选出了对这次危机的最好预测:Steve Keen 早在1995年就搞了一套理论模型,并且从2006年开始使用这个模型每月发布预警报告;Nouriel Roubini在2005年就指出美国房价会在3年内跌30%;而Dean Baker则从2002年开始反复说房价是个泡沫。我们可以看到这些预测有限的,不论是金融危机的规模还是爆发时间,它们都远远谈不上准确。

不论如何,嘲笑经济学模型是从事“硬科学”的科学家,甚至是所有学者最爱干的事情之一。看完《金融时报》上一个历史学家(!)嘲笑经济学家的文章之后,一个物理学家笑了。他说我看经济学模型还算好的,气候模型还不如经济模型。经济学家至少知道模型里面“经济人”是什么东西,而气象学家根本不知道气候模型里的云和海洋混合(ocean mixing)是怎么回事。

他说的是关于模型的重大问题:如果你根本没搞清楚所有的原理和机制,你做的简化距离真实世界非常遥远,你的模型还有意义么?物理大佬 Freeman Dyson 认为没意义。他说

我没有气象学位,所以我大概没资格谈论这个话题。可是我也研究过这些气象模型,我知道它们能干什么。这些模型对大气和海洋的流体力学方程可以解的很好,但是它们对云,尘埃,地表和森林中生化过程的描写很差。它们根本谈不上描写我们生活的这个真实世界……这就是为什么搞气象模型的这帮人只不过是自己相信自己的模型而已。

那么 IPCC 自己怎么评价气象模型呢?在2007年报告的一个FAQ中,IPCC 表示它对这些模型非常自信。但是在我看来,这份文字写的有点不够意思。IPCC 说这些模型的基本原理是建立在动量能量守恒这些基本物理定律上的,而且还有大量观测事实作为支持。它没说的是模型的“非基本原理”,比如Dyson说的那些东西,是怎么处理的,更没说这些非基本原理能起到多大作用。IPCC 还说这些模型能够成功的模拟当前气候,而且还成功再现了过去100年的气候变化。没错,但IPCC没说的是这正是那些“大量观测事实”支持的结果,是用这些观测事实调参数凑答案的结果(叫做”parameterisation”),这些模型在很大程度上是基于经验的。

其实调参数没有什么不对。根据“依赖模型的现实主义”这个精神,你怎么就能说基本物理定律不是基于经验的呢?气象学家可能的确不怎么理解云,但难道物理学家就敢说自己真的理解电子么?所以我认为 Dyson 的批评等于说黑猫肯定不如白猫,并不重要。重要的是气象模型预测未来的能力怎么样。

有一个关于天气预报的笑话是这么讲的。有人打电话到电台问你们每天预报的降雨概率到底是怎么算出来的?主持人回答说我们一共有十个预报员,每天投票预报,如果有3个人认为会下雨,我们就说降雨概率是30%。IPCC 预测未来的办法跟这个有点类似。一个最常用的办法,是把各个不同气候模型综合起来取平均值。比如把12个国家的17个研究组使用的24个模型取平均。

上面这张图来自IPCC网站,其用现有模型去模拟过去100年的温度变化,看看是否符合观测结果。图中杂乱的黄线是使用14个不同气候模型进行的58次模拟的结果,而红线则是这些结果的平均值,它与实际观测值(黑线)相当接近。

我们可以仔细想想这个事情。IPCC 这个做法相当于投票选举真理。如果我们对气候的认识是完美的,如果科学家明确知道自己在做什么,那么世界上应该只有一个气候模型。现在这种让大家都算一算然后取个平均值的做法,等于说我们不知道到底哪个对,其根本原因在于模型中的物理机制和参数有很多不能确定的地方。而这张图则说明这个做法效果还不错!

但既然你的模型中有很多参数都是用历史数据拟合出来的,这些模型能够再现历史就不奇怪,最关键的测试还是你能不能预测未来。2007年Science上的一篇论文比较了IPCC在1990年对未来气候的预测,与从1990到2006期间的实际观测。图中虚线是IPCC的预测,实线则是观测值。

这是一个非常有意思的结果。尽管我们一再被告知二氧化碳浓度上升主要是人为的,但IPCC对二氧化碳浓度的上升却预测的非常准确(文中解释,这是一个巧合)。它预测得不太准确的是温度上升,它预测得更不准确的则是海平面的上升。但最惊人的是IPCC不是高估了温度和海平面上升,而是低估了。实际情形比IPCC警告我们的更坏。

这张图至少说明在签署京都议定书期间,IPCC 的模型不是故意夸大危险来忽悠世人。此图用的都是1990年的旧模型,那么新模型们是否表现更好呢?一份非正式的研究,把IPCC 2007年的新报告跟从2007到现在的实际观测比较,则发现IPCC高估了温度的上升。

所以用模型预测未来是非常困难的事情,越复杂的模型就越困难,而且越细致的未来就越不好预测。我们看到预测海平面上升已经比预测温度上升困难,那么如果有人想进一步预测全球变暖带来的恶劣气候导致多少“气候难民”,我们就可以想见那是不可能准确的。联合国环境规划署曾经在2005年预测到2010年沿海地区将会有50万气候难民,结果到今年人们发现这些地区的人口不减反增。那么联合国网站怎么办?第一,删除原有预测(有人还是保留了一份证据);第二,不解释;第三,50万难民的预测时间现在被改成2020年了

不要特别相信那些复杂的模型对未来做出的复杂预测。问题是新闻记者总是比科学家更相信模型。今年初一份气候预测报告说未来十年温度将上升2.4度并导致全球粮食短缺,科学家很快发现报告存在严重错误并且立即撤回了报告 — 可是这时候这个新闻已经被无数媒体广泛报道过了。

2009年,英国女王伊丽莎白质问经济学家说你们就怎么都没预测到这次金融危机呢?经济学家们回信,说经济学这个工作都是各自为战研究具体领域内的小问题的,我们并没有做在一起对世界经济这个整体发挥“集体想象力(collective imagination)”。换句话说,他们玩的都是小模型,没玩过这么大的。

科学家也是这样,一般情况下不想玩大的。科学家玩模型最大的目的其实是想解决小问题,是想通过模型来发现和证实一些小机制。所有玩模型的科学家都知道自己模型的局限性。可是公众和政客非逼着你预测。如果非得预测大的不可,最好还是用 IPCC 爱用的这种多个模型取平均值的办法 — 也叫“发挥集体想象力”。

 

 

 

 

 

———–

  • 1. 那么实验呢?如果有人做实验证明比如说两个铁球同时落地,他难道不就是在揭示一个与模型无关的现实么?没错,但他揭示的现实只是我们眼中的这次试验中的这两个铁球,要想把实验结果推广到所有物体以形成“现实概念”,他就必须制造一个理论,也就是模型。

科学新闻没告诉你的那些事儿 1

医学研究能当真么?

转基因食品无害。地震不可预测。干旱气候与三峡大坝无关。我们非常关心这些问题,科学家似乎明确地给了答案,可是有人仍然无所是从。我们应该听科学家的么?但科学家肯定经常也会说错。有时候他们说手机辐射可以导致脑癌,有时候又说这种效应根本没有足够证据。有时候他们说大蒜可以降低有害胆固醇,有时候又说大蒜其实不能降低有害胆固醇。这种情况下应该怎么办呢?
(a)以最权威科学家,比如诺贝尔奖得主或者Nature杂志上论文,的意见为主。
(b)以科学家中的“主流意见”(如果“主流”真的存在的话)为主。
(c)以最新发表的意见为主。
(d)别当真,科学新闻可以当娱乐新闻看。

如果这条新闻说的是医学研究,那么最理性的选择是……(d),别当真。那些写在晚报副刊上的各种所谓健康指南,连看都别看。而是那些刊登在主流媒体上,有最新的论文支持的科学新闻,比如说英国某个团队又发现什么东西对儿童智力的新影响了,我们大概可以看,但是看完就可以直接把它忘了。

更进一步,如果这条新闻说的是营养学研究,比如吃什么什么维生素对身体有什么什么好处或坏出,那么哪怕是发表在最权威医学期刊上的那些高引用率论文,也应该全部忽略。

说这句话的人叫 John P.A. Ioannidis,他去年刚刚被任命为斯坦福大学预防医学研究中心主任。Ioannidis 说,“ignore them all”. 他攻击的不仅仅是营养学,而是整个医学研究。2005年,Ioannidis 发表两篇论文,证明大部分医学研究都是错的。这两篇论文在医学界被引用好几百次,但是没有人说他这个看似无比偏激的结论是错的。甚至没人表示惊讶。所有搞医学研究的科学家都知道这个秘密:医学研究根本不靠谱。

但是这件事一直到2010年底才引起公众的关注。首先是亚特兰大月刊发表充满愤怒的长文,标题采用英国首相和马克吐温发明的著名句式:谎言,该死的谎言,和医学研究”。时代周刊立即跟进,并把结论进一步精简为90%的医学研究都是错的!时代周刊这篇报道说,现在已经有人开始真正认真地重新审视整个医学科研,而且立即发现了几个与我们此前的知识完全相反的结论,比如说:

– 没事儿自己检查乳房,不但不会降低乳房癌的死亡率,没准还有坏处;
– 其实科学家并没有足够证据说注射流感疫苗对防治流感有效。

由 Ioannidis 两篇论文引发的这场医学暴动仍在进行之中。今年一月的新闻周刊报道,最近又有两个医学常识被干掉了:

– 不仅仅是大蒜,如果服药者本人没有心脏病史的话,就连那些专门的降低胆固醇的药,其实都没什么作用;
– “补钙要加D”纯属扯淡 — 我们几乎每个人都已经有足够多的维生素D,根本不需要从钙片和善纯片里获得。新的报告说,一般人可以从阳光中(白人每天日照5分钟,有色人种15到20分钟)获得维生素D,而少数青春期女生和老人也许需要通过从食物中补充一点。

所以新闻周刊有充分的理由把这篇报道的标题定为“为什么几乎所有你听说的医学是错的”。

科学新闻常常教育我们要用现代医学的常识去反驳民间偏方,用科学家的论文去反驳普通人的常识,再用欧美科学家的论文去反驳中国科学家的论文。然而现在 Ioannidis 说欧美科学家的论文其实也不可靠。而且错误率是90%?民间偏方没准还比这个好点。所以以上这几篇报道大概也有点标题党,我们必须看看 Ioannidis 到底说了什么。

他一篇发表在 PLoS Medicine的文章说,在医学研究中被广泛使用的统计方法,其实是个非常脆弱的体系。如果你的一项研究是考察某种药物对人的健康是否好处,而你希望能证明有好处的话,你将很容易做到这一点。首先,现在大部分医学科研研究的效应其实都是比较微弱的,因为不微弱的效应别人早就研究完了。其次,什么叫对健康有好处?也许一个病人的病情并没有什么明显好转,但因为你希望这个药物有效,你也许会完全无意识的刻意寻找他好转的证据,你可能会把本来没什么好转的病人当成好转的病人。这就是你的偏见。Ioannidis 这篇论文其实全是数学,他做了一番计算,说如果这个微弱效应有10%,而你的偏见有30%的话,你的实验得到正确结论的概率只有20%。

科学家是有偏见的。他可能因为拿了医药公司的资助而希望证明一个药物的疗效,他更可能为了能在发表有轰动效应的论文而追求惊人的结果。鉴于10%的效应率和30%的偏见率差不多就是一般流行病学研究的水平,我们大概可以说80%的流行病学研究都是错的。根据同样的计算,小规模随机试验的可信性也只有23%。Ioannidis 这篇文章就是用数学方法证明这种偏见有多可怕。

光玩数学当然不行,批评现实得有真实证据。这正是Ioannidis另一篇论文干的事情,发表在权威期刊 JAMA上。没有人能把所有医学论文都研究一遍,所以他的做法相当具有戏剧性:他只看1990到2003年间发表在顶级临床医学期刊上的顶级论文,入选标准是被引用超过1000次。符合这个标准的论文一共有49篇,其中45篇声称发现了某种有效的药物或者疗法。

我们都知道科学结果必须都是可重复的,我们不知道的是有多少科学结果真的被人重复过。这45篇论文虽然都被引用了千次以上,其中只有34篇被重复检验过。

而后人检验的结果是其中7篇的结论错误。比如有一篇论文说维生素E对降低男子冠心病风险有好处,有一篇论文说维生素E对降低女子冠心病风险有好处,而后来的大规模随机实验则证明维生素E对降低冠心病风险根本没好处。另有7篇论文被发现是夸大了有效性。也就是说34篇经过检验的论文中的14篇(41%),被发现结论有问题。这45篇最权威的论文中只有20篇接受了并抗过了时间的考验。

顶级论文尚且如此,一般论文又能怎么样呢?真有90%都不可靠么?我从未发现 Ioannidis 说过“90%的医学研究都错了”这句话,时代周刊的报道的确是标题党。

Ioannidis 说的不是90%,而是432分之431。没有人能彻查所有医学论文,所以 Ioannidis 的做法是选择一个热门领域,彻查这个领域内所有的论文。这个领域是研究男女患各种疾病的风险不同,是不是因为基因的影响。在2007年 JAMA 的一篇论文中,Ioannidis 与合作者找到这个领域的所有77篇论文,然后逐篇分析这些论文处理数据的方法是否足够严谨。这些论文一共提出了432个论断,其中只有60个论断可以称得上是方法严谨。而这60个拿的出手的论断中,曾经被其它研究至少重复验证了两次的,只有一个。

如果我们对正确科学论断的要求是方法严谨,结果至少经过两次检验,那么这个领域的合格率只有1/432。如果我们放宽要求,只要一篇论文不被证明是错的,就算它是好论文,那么发表在最权威期刊上的被引用次数最多的医学论文中,有7/45是坏论文。

这七篇坏论文中的两篇说维生素E可以降低冠心病风险,而事实上,后来2000年新英格兰医学杂志上就有文章用超过9000人的严格随机实验证明维生素E根本不能降低冠心病风险,这一结论从此之后再也没被推翻过。那么到底有多少科学家知道这件事儿呢?Ioannidis 等人曾经专门调查了到底有多少论文还在使用“维生素E降低冠心病风险”这个错误知识,结论是一直到2005年,仍有50%的新发论文还在引用前面那两篇错误的顶级论文,并且以为它们是对的。

如果你现在随便找个中国医生问他维生素E是否对冠心病有好处,我敢打赌他说有好处。我在Google用中文搜索“维生素E 冠心病”,第一页的结果全是说有好处,它甚至已经作为常识进入各种医学网站。

肯定有人因为看了2000年之前的新闻报道而大吃维生素E来降低冠心病风险。肯定有人还在吃大蒜降胆固醇。肯定有人还在补钙加D。

把学术论文的结论推广到真实世界的真理,有时候是非常危险的事情。因为不理解科学研究的思维方式,导致大多数人对科学有两个重大误解:第一,认为科学研究绝对真理;第二,认为每一项科研都是在生产我们日常决策的答案。真实的科学研究其实一个充满曲折,甚至有时候错进错出的过程。

更重要的是,科学的野心其实比公众设想的小。而恰恰是因为这个原因,科学才有这么强大的力量。很多论文不严谨,甚至很多都是错的,这并不表明科学中没有正确答案,它只是表明得到和判断正确答案并不简单。

科学报道都是用人类传统语言写成的,而科学研究使用的却不是人类传统语言。所谓“科学方法”,其实是另一套很不一样的思维方式。今天医学研究的悲催现状并不见得就说明科学方法不行。我想用接下来的几篇小文,介绍一下“科学方法”,这种超越了人类本能的思维方式。一个简单的问题是我们凭什么相信“维生素E不能降低冠心病风险”这个结论就是对的?因为有些科学方法比另一些科学方法更可信。我们将说明为什么看新闻不如看论文,为什么看一篇论文不如把多篇论文综合在一起看(称为 meta-analysis),以及为什么这么看还是不行。

科学是成年人玩的东西。我认为抱着谦卑的情绪去“仰望科学”是个错误的态度,正确的视角因该像下棋一样,是俯视。

卢瑟福说全部的科学就是物理学和收集邮票。当然卢瑟福是个物理学家,而且现代有些学科似乎正在超越集邮的阶段……不论如何,我们先谈物理学,再谈集邮的科学。后者对我们更重要,因为绝大多数日常所需的科学都是集邮,而集邮行为非常容易被误解。

注:其他医学研究者并没有对 Ioannidis 揭示的现状无动于衷。有一个成立于1993年的叫做 Cochrane Collaboration 的国际组织,就正在专门严格审视各种医学研究,并且推出了很多报告,而且他们也采纳了 Ioannidis 提出的审查方法。这个组织特别强调经费只来自于政府,大学和私人捐款,而不拿医药公司的钱。…

Myth 和Truth:人脑不是计算机

此时此刻,科学家对人脑的认识正在突飞猛进,获得很多可以直接指导我们日常生活的结果,但媒体对人脑知识的科普却远远比不上性知识。一般人可能对人脑存在观念上的错误认识,其中最重要的一个就是把人脑跟计算机做类比。
  
  这种错误认识主要来自科幻作品。很多科幻作品认为人的记忆和技能,不但可以消除,而且可以输入。比如 Matrix 里面的人物可以通过直接收一段代码来学会一套武术,或者学会开直升机。最近的例子是电视剧《玩偶特工》,其中的人物简直就是一台计算机,你可以像安装操作系统和软件一样随时把他们变成别人。
  
  有的有心人可能会质问,人的技能除了要记住动作要领这个“软件”之外,还包括肌肉发达程度这个“硬件”,你怎么可能仅仅改变软件就让人会武术呢?这个质问有道理,但是问错了。正确认识是人脑根本就没有“软件”。人脑的全部动作都是“硬件”意义上的。
  
  人的记忆不是“录制”在大脑里,而是“长”在大脑里。大脑通过神经元(neutons)来记住事情。Brain Rules 这本书介绍了一次特别有意思的开颅手术。接受手术的病人没有疼痛神经,也就是说他可以在整个手术过程中保持清醒。在医生们盯着他裸露的脑神经们看的时候,他也在盯着医生们看。这时候一个医生拿了一张 Jennifer Aniston (就是 Friends 里面哪个女演员)的照片给他看,发现他的一根脑神经跳了起来。然后医生拿7张不同的 Jennifer Aniston 照片给他看,他那个神经跳了七次!
  
  这根神经一看到 Jennifer Aniston 就跳,而且看别人的照片从来不跳。如果你觉得这根神经有点色情,一个补充事实是医生们也发现了这个病人的一根专门的比尔克林顿神经。也就是说,人脑可能为他认识的每一个人安排一根专门神经。
  
  更进一步,人的记忆和技能,是各种神经生长,组织,连接的结果。同样的记忆,在不同的人被“长”在不同的地方。比如对伦敦街头出租车司机的研究表明,他们脑子中辨认方向的神经结构特别发达。
  
  往硬盘上存个文件,只要像录音一样改变其磁道扇区上的 0 和 1,要想改变人的记忆却要大动干戈到几乎不可能的程度。你必须先让大脑长出这些特殊神经元来,还要把他们在一个区域内组合好。注意神经元的尺度可以很大,比如直径0.1厘米,长度可以达到英尺量级。要想像《玩偶特工》里面那样把一个人完全变成另一个人,要做的工作就好比把一件毛衣拆了,然后给每一根线分别重新染色,然后再织成另一件完全不同的毛衣。整个过程还不能开颅,还必须几乎瞬间完成,这可能么?
  
  人脑的这种结构同时解释了为什么乔丹不能打好棒球。他的身体素质和反应速度完全达到打好棒球的要求,但他就是打不好。为什么?因为通过多年练习,他大脑的硬件结构就是一个篮球大脑。你怎么可能在一两年时间内把一个篮球大脑变成棒球大脑呢?
  
  这个知识对我们的启示当然就是任何技能都是勤学苦练积累的结果,而不可能指望快速输入。另外我们可以有两个轻易的推论:
  
  第一,所谓“顿悟”可能根本不存在。一个科学家可能对一件事冥思苦想好多天,然后一天突然想通了,这个不叫顿悟。我说的顿悟是中国文化传说中那种头天晚上还什么都不知道,今天早上突然什么都明白了的极端情况。这相当于人脑结构在一夜之间突然大变,这是不太可能的。
  
  第二,人的记忆不可完整下载。我猜神经元包含的信息和结构很可能是模拟信号,也就无法在不失真的情况下完全数字化。
  
  最后的一个问题是关于灵魂。假设真有灵魂,那么灵魂离开人脑之后还能“思考么”?伦敦出租司机死后,离开他的神经网络,还能辨认方向么?人死后还能认识 Jennifer Aniston 么?既然人脑什么都是硬件实现的,根本就没有软件,灵魂还可能存在么?…