科学新闻没告诉你的那些事儿 3

摆脱童稚状态

(果壳网)

中国民间有一个“七十三,八十四,阎王不请自己去”的说法,说在这两个年龄上的人更容易去世。这个定律从直觉上就不太可能是对的。我们设想,应该是因为孔子和孟子分别死于这两个年龄,人们认为这是人生中的两道大关,然后每当听说有人在这个年龄去世都会进一步加深印象,以至于总结了这个纯粹是错觉的定律。但有人不满足于直觉分析。

一篇网上流传的文章认为这是一个“科学家验证”了的规律:“科学家的回答是肯定的”。这篇文章说“科学家们经过了反复的研究”,发现“人的生命有一个周期性的规律,大致是7~8年为一个周期”,而73和84岁正是这个周期的低潮。我不知道这个周期学说是哪个科学家的理论,也许来自某人解读的《黄帝内经》罢。但问题不在这里。

问题是,这篇文章把“能找到一个理论解释”,当成判断一个学说是否科学的标准 — 如果能用理论解释,它就是科学验证了的么?

绝学与证据

不管你用来解释的理论对不对,这都是一个错误的判断标准。能用理论解释的结论未必正确,不能用理论解释的结论未必错误。古代文人的思维习惯,是遇到无法判断对错的局面就查经典,想获得理论上的指导。而科学家的方法则要朴素得多:你直接用事实验证一下不就行了么?我们根本不需要任何学派的任何医学知识,甚至不需要什么逻辑推理,只要随便找个死亡年龄分布数据就会发现73岁和84岁并不比其临近年龄更容易让人死亡。这个工作是如此简单,据说连北京电视台都做过。

古人说“为往圣继绝学”,很多现代人也追求用某种特定理论来指导实践,好像不用这个理论就对不起别人一样。科学家不从绝学出发,而选择从证据出发的根本原因不仅仅是科学尚未达到找到绝学的程度(物理学家仍未找到统一理论),更是因为就算有绝学也无法放之四海而皆准。就算我们完全知道人脑中每一个原子,进而到每一个大分子,进而到每一个细胞是怎么回事,也无法从中计算出心理学来 — 因为这是不同尺度上的问题,这种跨尺度的计算量大到了即使是科幻世界里也不可能的程度。

所以科学家强调事实。科学放弃了从一套最基本的哲学出发推导所有结论的尝试,改为在每一个领域内就事论事地搜集事实。有人指责科学家说你们相信现代科学理论难道不也是一种迷信么?但科学家其实不迷信任何理论 — 很多情况下他们完全用不上什么绝学,唯一做的事情就是把事实搜集在一起,就好像集邮一样。只要有证据,反驳一个理论是非常简单的事情。

但是要想用证据建立一个理论,则要困难得多。只有运气好的时候,科学家才能在大量事实中发现一些有趣的规律,以至于可以向形成科学理论的目标前进一步。

相关性思维

最简单的规律叫做“相关性”。人是如此复杂的东西,我们根本没办法精密计算各种物质致癌的概率,比如说吸烟对肺癌的作用。科学家常用的是没有什么技术含量,不需要任何高科技仪器,更谈不上什么门派的办法:他们直接调查吸烟人群和不吸烟人群的肺癌发病率。

这种研究要把被调查的人分组,比如分成两组:得了这种病的患者一组(叫病例组,case),没有这种病的人一组(对照组,control)。然后考察这两 组人在生活习惯上和饮食、吃药方面有什么不同。如果你发现患有肺癌的人中烟民比例显著地高于没有肺癌的人,你就得到了肺癌与吸烟的一个正的“相关性”。这个方法很简单,得到的证据却是强硬的。睡眠时间与判断力的关系,孕妇焦虑与小孩任性的关系,出生季节与平均寿命的关系 — 我们看到的大量科学新闻本质上都是相关性研究。

相关性研究只是科研的初级阶段。但就是这样它也已经超越了我们的思维本能。某些人只要被某地区生产的产品坑过一次,就会认为这个地区的所有产品都不好,他们的发现连相关性都算不上。我们每天看到铺天盖地的各种营养品的广告往往都能找到几个用户出来现身说法,可就是没有一个疗效相关性的数据。“一朝被蛇咬十年怕井绳”,是人这种动物的最自然思维,而使用大规模统计发现实在的相关性这个最简单的科学方法,是我们摆脱童稚状态的第一步。

绝大多数人没有相关性思维。比如在一篇讨伐网瘾的文章中,作者援引“戒网专家”陶宏开的数据说,

中国80%的青少年犯罪与网瘾有关,中国20%的网瘾少年有违法犯罪行为。

在另一篇文章中则有人进一步指出

济南在押的1500名少年犯中,80%是“网瘾”造成的,北京更是有90%的青少年犯罪案与“网瘾”有关。

我们能否根据这些数字得出结论说网瘾人群比没有网瘾的人群更容易犯罪呢?

不能。我可以构建这么一个国家,这个国家80%以上的青少年有网瘾,而这个国家的所有青少年,不管有没有网瘾,都有20%的犯罪概率。这个虚拟国家完美符合以上数据,但是它的犯罪与网瘾完全无关。实际上,如果你把“网瘾”改成“钱”,甚至“空气”,那么我们可以说“中国xx%的青少年犯罪者都缺钱/需要空气,中国yy%的缺钱者/需要空气者有犯罪行为”,而缺钱和需要空气不是毛病。

这个错误就是没有建立对照组。我们缺少的关键数据是没有网瘾的青少年的犯罪率,以及没有犯罪的青少年的网瘾率。这是一个非常常见的错误。这就好比说列举再多“发达的民主国家”,也不能说明民主与发达的相关性,你还必须统计那些不发达的民主国家、不民主的发达国家、和既不发达也不民主的国家。

发现相关性,已经是一个足够发表的科学成就,但相关性结论并不能指导实际生活。假设我用无可质疑的统计事实告诉你“吸烟的人更容易得肺癌”,而你不想得肺癌,那么你是否能推论出应该因此戒烟呢?

怎样发现因果

还是不能。因为你无法从“吸烟的人更容易得肺癌”,和“肺癌患者大部分都爱吸烟”这两个统计得出“吸烟导致肺癌”这个因果。也可能肺癌导致吸烟,比如说也许癌变的肺会使人对烟产生需求。也可能存在某种基因,这种基因会使得一个人天生就容易得肺癌,而这种基因同时还让一个人天生就喜欢吸烟。也可能吸烟的人往往是喜欢深夜工作的人,是深夜工作导致肺癌。也可能吸烟的人往往是经济状况比较差的人,其居住环境和营养不行,是贫困导致肺癌。

有相关性未必说明有因果关系,这是一个非常重要的思维。中国青少年网络协会和中国传媒大学调查统计研究所发布的《2009年青少年网瘾调查报告》是一份值得发表的研究,因为其中给出了一些明确的相关性数据,比如:

自我评价学习成绩越不好的在校学生中,网瘾青少年的比例越高。认为自己“成绩较差”的学生中,网瘾青少年的比例达到28.7%,认为自己“成绩一般”的学生中,网瘾青少年的比例为14.5%。而自我评价“成绩很好”和“成绩较好”的 学生中,网瘾青少年的比例均在11%左右。

那么根据这份报告我们能否得出结论说网瘾是个坏东西呢?

不能。也许并不是因为网瘾导致青少年成绩差,而是那些成绩差的青少年更容易得网瘾。报告没有统计网瘾与犯罪率的关系,但就算真的是越有网瘾的人群越容易犯罪,我们仍然不能说网瘾导致犯罪。比如我可以提出这么一个假说:

我认为网瘾是个好东西,因为它可以减少青少年犯罪。在任何国家的任何时候,都一帮青少年对学习不感兴趣,整天无所事事。他们喜爱在街上游荡,都是潜在的犯罪者。因为网络游戏的出现,相当一部分这样的人被留在了家中和网吧里,他们的野性在游戏中得到了发泄,以至于减少了出去犯罪的欲望和时间。

报告和前面提到的所有统计数字都无法反驳我这个假说。我甚至可以用这份报告支持我的假说。报告中提到一个有意思的统计是“在社会经济发展水平低的城市,网瘾青少年的比例更高”,这正好可以说明无所事事的人更容易得网瘾。

想要明确证明吸烟导致肺癌,唯一的办法是做实验。找完全相同的两组健康的人,让其中一组吸烟另一组不吸,其它各方面生活都完全一致。20年之后如果吸烟组中的肺癌患者数高于不吸烟组,那么鉴于这两个组的唯一区别就是吸烟,我们就可以断定是吸烟导致了肺癌。

可是现实世界中根本不存在“完全相同”的两组人,这种理想实验无法进行。好在科学家有一个退而求其次的巧妙办法:找一群人,然后完全随机地把他们分为两组去做实验。在样本数足够大的情况下,随机性可以保证任何不同因素都可以大致均匀地分配到两个组里。这就是在关于人的研究中最重要,也是最可靠的办法。然而世界上不存在绝对完美的随机实验,比如为了让实验结果具备推广价值,样本应该尽量多样化,男女老幼,各种收入状况,各个种族都有才好,但这其实很难做到。很多实验心理学家选择的样本全是在校大学生,他们的结果能推广到所有人么?有人对此讥讽说他们研究的心理学应该叫“大学生心理学”。

更大的困难在于,大多数情况下你不能拿人做试验,比如不能逼人吸烟。这时候就只能被动地集邮,而通过纯粹的被动调查来做研究的方法叫做 epidemiology(流行病学)。最容易的流行病学研究是所谓回顾性(retrospective)的问卷调查:先找到病人,然后询问并比较他们的生活方式。这种调查的难度在于病人对自己以往生活的回忆常常不准确,甚至是有偏见的。他们可能会自己推断一种病因,然后刻意地强调这种病因。就好像想要讨好医生一样,那些得了肺癌的人可能会夸大自己的吸烟史。一个更可靠的办法是前瞻性(prospective)调查。比如说科学家想知道核辐射对人体的损害,现在日本地震导致核泄漏之后哪些地区的哪些人受到了辐射是非常明确的,根本不用对他们进行问卷调查,自然也就没有偏见。有了干净的初始数据,科学家只要长期跟踪这些被打了核辐射标签的人群,再跟正常人对比,就可以知道辐射对人体的影响。可是这里的困难就在于“长期”,核辐射的影响也许几十年才能看出来,那时候也许病人还没死科学家已经先死了。

比如“孕妇焦虑与小孩任性的关系”这个研究,唯一可行的办法就是流行病学的调查,你不可能拿孕妇做实验。一篇2008年的论文是回顾性的,研究者找到一个治疗儿童多动症(ADHD)诊所的6-12岁的203个孩子,询问他们的妈妈怀孕的时候是否有过心理压力,结果发现怀孕时心理压力越大的妈妈,其孩子的症状更明显一点。这就是一个不太可靠的研究,有谁准确记得自己6年前的心态?多动症儿童的妈妈很可能会为了配合一个理论而高估自己当初的焦虑。

而一篇2011年的论文则是前瞻性的。研究者先锁定了澳大利亚某地的2900名孕妇,在怀孕的时候记录下离婚,搬家之类容易让人产生压力的事件。等她们的孩子长到2岁以后,再看其中哪些孩子有ADHD。这个研究就可靠得多了,而可靠的代价是研究要进行多年。

要想从流行病学研究中发现因果性,就必须尽可能的统计各种影响因素。怀孕压力与小孩多动症的相关性数据并不能直接说明压力导致多动症 — 也许那些在怀孕期间离婚的女人本身生活就不靠谱,是她们的不靠谱导致了孩子的多动症。所以这两篇论文都统计了一些其它的因素,比如孕妇是否吸烟喝酒啊,怀孕年龄啊,收入状况啊这些数字,然后使用统计方法把这些因素考虑进去(叫做 control),最后的结果才更有参考价值。可是你不可能统计所有的可能性,实际上两篇论文统计的项目就并不一致。这就需要把一系列论文放在一起综合分析。

不管调查到什么程度,都只是对真实世界的管中窥豹。科学研究的是有限的真理。当一篇论文说什么东西可能或者不可能导致什么疾病的时候,它说的其实是在这次研究所调查的这帮人里面有这么一个结论。这个结论能推广到所有人群么?记者一定比科学家更乐观。

科学的目标

得到因果性远远不是科学家的目标,科学不是一本写满什么东西会导致什么现象的菜谱。好的科学除了能证明因果关系之外,还必须有一个机制,得能解释为什么会有这种现象。比如二氧化碳增多导致全球变暖,其机制是二氧化碳是一种温室气体,它能够吸收从地面反射回空中的红外线,再把这个能量辐射出去促使大气温度升高。

相关性思维和因果性思维只是思维方式的转变,真正的技术含量在于发现机制。你必须说明是吸烟导致肺变黑,而变黑的肺容易得癌症,还是烟草中有什么化学物质可以直接致癌(正确答案是后者)。机制提出来之后,这个机制中的每一步也必须是可以验证的,一个课题只有做到这个程度才算超越了集邮阶段。也只有到了这个程度,才真正谈得上把各种不同机制综合在一起建立模型去预测未来。

有时候这个过程会反过来,也就是用现有的机制理论推导一些现象,再去寻找证据证实。但探索未知最基本科学方法是证据第一,然后谋求建立因果关系,然后是提出机制。仅仅是对其中一步作出很小的贡献,就可以发论文。大部分这样的论文事后会被证明没有太大意思,甚至是错误的。比如研究孕妇焦虑与儿童ADHD的论文虽然有好几篇,但它们说的其实是一个非常微弱的效应 — 也许将来我们会发现儿童多动症的真正原理根本就不是孕妇焦虑。但科学就是这么一个不断试错的过程。

每一篇论文都是我们从个人感觉到客观事实,从客观事实到因果关系,从因果关系到能推广使用的机制,这个过程中的一小步。这个过程的每一步都不是完美的,但只有这么做,我们才能摆脱童稚状态。

谨以此文标题纪念王小波。他曾经在这个标题下讲述过类似的道理。可惜大多数人只记住了他文章的结论和价值取向,而没有学会他使用的方法。比如据有识之士尼伯龙根·蜗藤指出,李银河就应该重读那篇文章。

哈利波特说的普世价值

今天跑到电影院看了哈利波特7的下集。我并不是一个哈迷,书只看过第一本,电影也有好几部没看,甚至不知道7的上集讲什么。但就是这样我也获得了一次非常完美的享受。我发现这不仅是一部PG-13的奇幻儿童动作片,而且是一部伟大的政治电影。哈利波特并不是一个特别爱说话的孩子,但他行不言之教,用自己的所作所为讲述了西方自由主义者的核心理念。

哈利波特说 —

不要杀人,哪怕是坏人。我一贯主张废除死刑。实际上,在整个2小时的电影里我从未出手杀人。出于纯粹自卫的原因,我的队友们不得不使一些敌人死亡,但敌人死的时候通常会很好看,变成一道黑烟,而不会留下恶心的尸体来给我们造成什么心理阴影。他们杀了人,但内心依然纯洁。因为被他们杀死的人在死前的那一刻已经不再是人了。

哪怕是对伏地魔的最后一战中,我都没有直接杀他。我只是对他保持高压遏制,最后他就像前苏联一样自己解体了。他的死就好像《功夫熊猫》里的乌龟师傅,他变成了像雪花一样的美丽物质,使得IMAX屏幕前有些观众忍不住伸手去抓。

而且我还救人,甚至救Malfoy这种曾经试图伤害我的人。有时候配角英雄不太理解这种做法,但像我这样的主角英雄都必须有这样的品质。比如在早年动画片《非凡的公主希瑞》中希瑞一次次地救起自己的死敌霍达克,最完美的英雄就应该有一点女人的气质。

作为正义的一方,我不主张先发制人。敌人一定会主动来打我们的,尽管明知这会给我们带来一定的主场优势。他们一定会先等不及!让伏地魔先出手吧,让他领一帮人来进攻吧,让我们在最初的战斗中遭受一点损失吧。这样我们才能占据充分的道德制高点。

不要主动追求更强的武力。只要你内心充满爱,更强的武力就会被加持在你的身上。伏地魔费尽了心机追求那根终极魔棒,结果怎么样?为我做嫁衣而已。因为我有大爱,所有我有权要求这种主角光环带来的超级好运气。运气是什么?运气就是人品啊。

当然我的盟友们各个都有爱心。那么为什么我最强呢?因为我是天命所归。我爸爸是谁,我妈妈是谁?为什么我从小能听懂蛇说话?好基因我羞于提起,但我必须强调是祖上的光荣和牺牲造就了这一代我必须是主角。

像伏地魔这样的人实在是太过强调武器了,他甚至把自己的部分武力寄托在外部系统,也就是一条蛇的身上。而我的能力都在我的心中。我靠的是武器吗?我靠的是我强大的内心。

打完伏地魔我直接把终极魔棒扔了,根本不想寻求新霸权……好吧,现实生活中好像没人能做到这种自废武功的高姿态,连当今美国都做不到,但这是值得大家学习的姿态。

尽管重要战役都是我打的,我还是一贯强调要相信并借助盟友的力量。盟友的武力并不重要,但忠诚和勇气最重要。我总是确保让最亲近我的人出现在功劳簿的最前列。我的朋友Longbottom是个武功很差而且从小爱哭的孩子,但是他有忠诚和勇气,这次两军阵前居然第一个出来为我说话,所以最后能得到斩蛇的大功。那些跟我不亲近的人武功再高,也只不过杀几个小兵当龙套而已。

荣恩和赫敏是我最重要的两个盟友,他们从一开始就追随我,所以总能获得最好的镜头位置。尤其是荣恩的妻子赫敏,只要我在她一定会站的离我更近一点,荣恩这时候就好像是她的 gay 男友一样。我妻子追随我的历史都比不上他们,所以在大结局的照片中也得站得远一点。

有时候我会不得不牺牲掉一些盟友。但请相信我,他们绝无怨言。我曾经听到他们的灵魂为我祝福的声音,他们说死了都要追随我,until the end.

哈利波特最后说,至于我信不信,你们反正信了。

技术左右天下大势

(《东方早报-上海书评》,2011年7月24日,报纸版标题是《机关枪捍卫世界和平?》)

我们常常相信历史前进的冥冥之中存在一些逆之者亡,顺之者昌的“大势”,就好像《三国演义》一开头说的“分久必合合久必分”一样。然而就算真有这样的大势,也很少有人能正确地预见到。比如一百年前,第一次世界大战前夜,世界发达国家的经济已经形成互相依赖的整体,电话和电报这些通信技术的进步使得各国能够充分交流,再加上民主制度广泛传播,以至于整个欧洲的政治家,知识分子和商界领袖都认为天下大势是和平。他们在二十世纪之初预言欧洲将不会再出现大的战争了,结果却是一个人类历史上战争最惨烈的世纪。

但是也不能说天下大势不存在,或者不可预测。实际上,有一个波兰银行家,Ivan Bloch,曾经几乎窥破了天机。作为一个业余军事学家,Bloch在1898年出了一套六卷本著作《未来战争的技术、经济和政治诸种方面》。Bloch也许从来没上过战场,但他却是世界上最了解机关枪意义的人。Block说,机关枪的出现使得传统的步兵和骑兵战术彻底过时 — 有了机关枪,士兵们只能在战壕里作战,因为他的计算表明一个战壕里的士兵比地面上的士兵有四倍的优势。这样步步为营的壕沟战会让快速推进成为不可能,以至于任何一个强国都不可能对另一个强国速战速决,所以未来战争必然是漫长的消耗战。这样长久的战争会迫使参战国投入百倍于传统战争的兵力,拖垮参战国的经济,甚至引发其国内动荡革命,所以没有哪个大国会愚蠢到在机关枪时代发动战争,于是结论就是机关枪将会给世界带来和平。事实证明除了和平,其它方面Bloch都说对了。

Bloch没有预测到一战发生的一个重要原因可能是他高估了世人对新技术的适应能力。这本书的思想是如此先进,以至于在它非常畅销的情况下却没有引起各国军方足够的重视。军队仍然习惯于传统的排兵布阵,一直到十几年以后,欧洲战场上的将领们才意识到机关枪的确是一种防守性,而不是进攻性武器,而且打仗的时候的确应该呆在战壕里。即便是这样机关枪也没有带来最终和平,因为坦克出现了 — 在Bloch写书的时候这个终极陆战进攻性武器还没有发明。不论如何,从一种新技术的出现判断天下大势这个思路显然并没有错。

技术不仅仅对人类生活提供辅助性的帮助,而且可以直接改变人类的行为模式和社会制度,我们甚至可以说技术发展的大势决定天下大势。最近堪称是当代技术思想家的Kevin Kelly,出了一本 What Technology Wants(《技术想要什么》),就给我们描绘了一幅技术的大势。在这本书里 Kelly 认为技术的发展正在变得越来越独立,就好像有了自己的生命一样变成了一个活的东西,以至于它“想要”一些东西。人类对技术的控制能力很小,我们的角色不是技术的主人,而是“技术的父母”,乃至于“技术的生殖器官”。即便如此,技术仍然是个好东西,它的大势总是让我们变得更好。

并非所有人都认为技术是个好东西。空气污染,全球变暖和核辐射,使得有些极端环保主义者认为人类应该放弃技术,回归到原始社会的自然生活。但原始社会既不文明也不环保。我国古代文化常常认为上古是大同社会,人们过着与世无争的安乐生活,而事实是在农业技术被发明之前的原始采集狩猎时代,部落之间的战争比任何文明社会都要频繁,死于战争的人口比例是农业社会的五倍。再加上食物来源不稳定,没有多少人能活过20岁,考古发掘中从来没有出现过40岁以上的原始人。从保护生物多样性角度,原始社会生活方式对地球环境的破坏比现在还要严重。从原始人走出非洲开始,人类走到哪里,哪里的乳齿象,猛犸象,恐鸟,犀牛和巨型骆驼就会被灭绝。到距今一万年前的时候,地球上80%的大型哺乳动物种类都被原始人屠杀殆尽。

也正是在这个时候,农业技术终于出现。人口开始增长,寿命开始延长,一代人到下一代人之间的知识传承才变得可能。有气象学家甚至认为,正是因为8000年前的早期农业带来大量二氧化碳导致的全球变暖,才使得地球避免了另一个冰川期。农业技术发展一个杰作是所谓“轴心时代”。在公元前600年到公元前300年之间,各大文明都出现了足以影响后世千年的精神导师,比如中国的孔子和老子,印度的释迦摩尼,古希腊的亚里士多德,柏拉图和苏格拉底。之所以会有轴心时代,是因为当时大规模灌溉技术的出现,古代农业产生了一定的剩余,以至于可以养活一帮(像有人说孔子那样)四体不勤五谷不分,一天到晚专门追求精神生活的人。

Kelly写道,人类社会组织每一次大的变革都由新技术的出现引发。人类必须首先发明文字书写系统,才能把法律写下来,才能谈得上司法公正。是标准化货币的铸造使得贸易流通更广泛,鼓励了经商乃至形成自由的思想。1494年复式记账法的发明使得欧洲的公司第一次可以处理复杂的业务,直接开启了威尼斯的银行业,乃至全球化的经济。是古登堡发明金属活字印刷术使得欧洲基督徒第一次有机会摆脱教堂,直接阅读圣经,形成自己的理解,结果导致爆发后来的宗教改革。

一个特别有意思而又影响深远的技术是马镫。在没有马镫的时代骑马作战时大部分体力都被用于不让自己从马上掉下来,骑兵对步兵没有速度以外的优势。而马镫让骑兵可以在马上从容使用武器,战马更容易控制,甚至人马一体,从而获得比步兵大得多的优势。从此之后,骑兵成为一个专业兵种,一群未经训练的平民就算组织起来也不可能打败久经训练的骑兵。再加上只有贵族才买得起马,可以说马镫技术直接带来了欧洲骑士制度、贵族封建统治、和漫长的中世纪。而最后终结这种统治的,是火枪技术的出现,因为训练一个火枪手比训练一名骑兵容易得多。

技术不但改变历史,而且改变人类的思维方式,比如地图和钟表的出现就带给我们抽象思维的能力。跟一个只会看真实风景的人相比,一个会看地图的人拥有一种高级得多的思维能力,他能通过抽象的点和线去感知一种此前的人无法想象的空间结构关系。机械钟表则把时间这个原本不可分割的自然现象变成可计量的单位,而滴滴答答前进的时间感则开启了人类探索科学的序幕。技术甚至改变人的基因。人类今天的进化速度是拥有农业技术之前的一百倍,其中一个重要原因是农业出现以后人类由小部落的游猎变成大规模群居,每个人有了更多的可选伴侣,导致自然选择加速。另一方面,因为人学会了饲养家畜,新的食物也在改变人的体质,比如今天我们对牛奶的消化能力就比远古时代强得多。

可能有人会说,技术是改变人,但难道技术不都是人发明的么?所以归根结底还是人改变人。这种说法很难说是对的,因为我们将会看到,人基本上控制不了技术。当我们考察技术的进步史,我们会发现它跟生物进化非常类似:二者都有从简单演化到复杂,从一般到特别,从一元化到多元化,从单打独斗到种群间合作共生等特点。如果说一个生命种类就是一堆基因的排列组合,那么一项技术也是一组想法的排列组合。从这个角度,Kelly认为我们甚至可以说技术是一种生命,他把所有技术的总和称为“技术界(technium)”,和原生生物界,真菌界,植物界,动物界等其它六个生物界并列,号称是生命的第七个界。有意思的是,要想真正理解技术进化的历史,我们需要一点关于生物进化的最新研究成果。

传统教科书中的自然选择,说基因突变完全随机,进化是为适应环境来决定哪种变异被保留。而在过去三十年,科学家开始使用非线性数学和计算机模拟的手段来研究进化论,其得出的最关键思想,就是进化不是完全随机的。所有动物的视网膜上都有同一种叫做视紫红质的特殊蛋白质,它的作用是把眼睛接收到的光能变成电信号传输给视觉神经。在所有可能处理光信号的蛋白质分子中,视紫红质的性能是最好的,生物进化早在几十亿年前就发现了这个完美分子的结构,而且从没有变过。如果进化是完全随机的,那么在所有可能的蛋白质分子中找到这么一个完美分子,就好像在茫茫宇宙中找到一颗特定恒星一样困难。这还不是最可怕的。分子生物学的研究表明,视紫红质是在古细菌和真细菌这两个进化路线上完全独立的分支上分别被进化出来的。也就是说进化不但找到了这个分子,而且还找到了两次!从统计角度完全随机的进化绝对做不到这一点。

所以有些最新的进化论学说认为生物通过细胞的新陈代谢之类的过程,存在一个自组织的机制,使得基因变异有一个特定的方向。而这种学说的关键证据,在于生命组织的形成方法是有限的。

比如说组成眼睛的方法就是有限的。人眼这个结构不但出现在哺乳动物中,而且出现在六种不同的生物种类中 — 这六个物种的共同祖先是没有眼睛的,它们是在进化史上分道扬镳以后才各自独立地进化出来了眼睛,而且是同一种眼睛。更进一步,组成眼睛一共就只有九种方法,而这九种方法都被进化所发现了。再比如说翅膀,世界上可能只有一种形成翅膀的方法,所以蝙蝠、鸟类和翼手龙虽然独立进化,其翅膀结构却是一样的。

理论上有能力组成生命所需大分子的元素只有碳和硅,而硅的性能比碳要稍逊,结果我们这个星球上尽管硅比碳储量丰富,所有生命都是基于碳的。科学家用计算机模拟了无数种可能组成生命的大分子,发现只有一种组合方式性能最好,而真实生命的DNA正是这种结构。我们可以说没有哪个物种是真正新的,无非是对有限的可能性进行排列组合而已。将来哪怕真找到外星生命,我们也会毫不惊讶地发现其组成方式跟我们一致。所以生命进化的内在方向,就是在这些有限的可能性中跳跃,正如非线性系统的演化往往是收敛的一样。

技术的进化也是如此。外行的科幻小说作家喜欢天马行空的想象,认为科技的发展是“一切皆有可能”,但事实是技术的可能性也是有限的,人远远不能从心所欲。如果我们考察几个大陆上相对独立发展的各个古文明,会发现尽管他们之间因为缺少交流而进步的先后不一致,但其技术发展路线图却是相同的。先有石器,然后才能学会控制火,然后才能出现刀,然后才有染料,渔具,石像和缝纫技术。最新的考古发现表明农耕技术并不是在一个地方先发明然后传播到世界各地,而是各个古文明独立发明的。结果用于农耕的各种工具,乃至于不同家畜的驯养,都是按照同样的顺序被各文明发明和掌握。在技术进步的任何阶段,都不是你想要什么就能研发什么。技术不听我们的,我们得听技术的。

人不能控制技术的另一个证据是一项技术如果到了“该出来”的时候,它就一定会出来。因为它会被好几个人同时发现。现在公认是贝尔发明了电话,但实际上伊莱沙·格雷几乎同时作出了这个发明,两人甚至是在同一天申请了专利,贝尔仅仅比格雷早了两个小时!达尔文和华莱士同时发现进化论,牛顿和莱布尼兹同时发现微积分。有人在1974年对1718个科学家的调查表明,其中有62%的人曾经在研究中被别人抢了先,这还不算没有报告的同时发现。在外行眼中科技突破都是由英雄的科学家和发明家做出来的,而事实则是就算你把这个科学家杀了,别的科学家也能在几乎相同的时间内把它做出来。统计表明一个科学家要想多干出一点东西,不被别人抢了功劳,最好的办法是……多干一点东西。

这是因为技术的进步不可阻挡。技术不仅仅是人类需求或者人类天才创造的推动,它自身就是自身的推动。正如生物进化一样,每一次技术突破都孕育新的技术突破,整个的技术进步是一个自组织和正反馈过程。有了文字就会有书,有了书就会有图书馆。有了电力就会有电话,有了电话就会有互联网。有了图书馆和互联网,就会有互联网上的图书馆,维基百科就不可避免。任何正反馈过程都会导致加速演化,而技术进步正是加速进行的。以摩尔定律为代表,微电子技术的发展速度成指数增长。而在1900到2000年这一百年内,我们的科学论文总数和技术专利总数的增长,也完美地符合指数曲线。如果这个趋势保持不变,到2060年地球上将会有十一亿首不同的歌曲,和一百二十亿种不同的商品可供选择。

作为一个电脑游戏爱好者,我发现《文明》和《帝国时代》这样的战略游戏中有三个设定相当符合人类历史。第一,你必须先研发出来某种特定的技术,才能去做某些事情。第二,你不必担心自己够不够聪明,只要你的经济达到相应的程度,该出来的技术就一定会出来。第三,你无权选择什么样的技术“该出来”,它们的种类和次序都是设定好了的。借用Google研究院吴军的话,技术革命就如同大潮,我们只不过是弄潮儿,而我们中的幸运者将处在浪潮之巅。

评估当前技术的影响,预测下一个技术突破,正在成为政策制定者的重要课题。比如如果未来20年内人工智能技术取得突破,使工业机器人的能力超过现在的生产线工人,那么穷国的劳动力优势就将不复存在,全世界都得面临高失业率。今天我们并不知道这种突破能不能实现,但将来一旦实现,就会有识时务者在新闻出来的当天启动应对方案。本书的一个遗憾是它没有预测目前技术发展带给我们的下一个天下大势是什么。但这也没办法,因为很多技术就算出来了,我们也很难立即看到它真正的影响。当初爱迪生发明留声机,他设想的最重要功能是播放有声书,居然怎么也没想到录音技术的最大用武之地是在音乐市场。

Kelly热情地欢呼技术进步,认为技术总是带给我们更多的选择,而更多的选择是幸福生活的最重要标准。从大时间尺度上讲这当然不错,但在小时间尺度内,某些特定技术的出现未必对所有事情都是好消息。比如互联网对世界和平是个好消息么?如果本文开头提到的Ivan Bloch能一直活到今天,他也许会有一个比Kelly这本书和自己一百多年前那本书都更不乐观的看法。

哥伦比亚大学教授Robert Jervis曾经在1978年提出一个关于技术进步与人类和平的非常有意思的理论。Jervis发现历史上进攻性武器技术和防守性武器技术是交替进步的:每当进攻性武器取得主导地位,战争就会变得更频繁;而每当防守性武器更强大,战争就会减少。比如欧洲历史上在十二和十三世纪因为广泛修筑堡垒而相当和平。但十五世纪大炮的出现使得战争增加。而十六世纪星形要塞(也就是小说《窃明》里说的棱堡)的发明使威尼斯这样的城市几乎不可攻破,欧洲重回和平,一直到十八世纪拥有更长炮管的自行火炮才出来打破僵局。这种武器的交替上升包括一战和二战中机关枪对坦克,直到冷战时代终极防守武器,也就是核武器带来恐怖平衡下的和平年代。根据这个理论,乔舒亚·库珀·雷默在 The Age of the Unthinkable 一书中提出这样一个问题:互联网是进攻性武器还是防守性武器?他认为是进攻性武器 — 因为互联网使得组织恐怖袭击比阻止恐怖袭击的成本低得多。

技术想要变得更高级,想要变得更无处不在,它有时候也想要帮助我们,但更重要的是,它想要独立地发展。你爱,或者不爱它,技术就在那里,不悲不喜。…

科学新闻没告诉你的那些事儿 2

真空农场中的球形鸡

(果壳网)

美剧《生活大爆炸》曾经讲过一个好多观众没听懂的笑话。说有一个农民发现自己养的鸡都出问题不下蛋了,找一个物理学家帮忙。物理学家做了一番计算之后宣布我已经找到了一个解!但是这个解只对真空农场中的球形鸡有效。这个笑话的意思是物理学家使用了一个过分简化的模型去模拟真实世界。

更有效的模型大概需要考虑在空气中传播的病毒对存在空气的农场中的有下蛋器官的鸡的影响。但不管你使用什么模型,你必须得使用一个模型。任何科学研究中的任何计算都是针对科学家选择的模型,而不是针对“真实世界”本身。

有时候简化的模型已经足够好,比如我们要计算天体运行的轨道,把任何恒星和行星都简化为没有体积的质点就可以了。有时候是不得不简化。比如说如果要模拟全球气候,大概要考虑洋流运动和南北极冰川的影响,那么要不要考虑云的变化?要不要考虑太阳黑子的影响?要不要考虑植物分布的影响?要不要考虑冰岛火山爆发、喜马拉雅山、贝加尔湖、三峡大坝和中国春运的影响?在有限计算能力下不可能都考虑。但世界复杂并不是我们必须使用模型的本质原因。

我们必须使用模型的本质原因是,我们对世界的观察是主观的。霍金和 Leonard Mlodinow 在《大设计》这本书里讲了一个金鱼的故事,说意大利 Monza 市禁止在弯曲的碗状鱼缸里养金鱼,因为从弯曲的鱼缸往外看会看到一个扭曲了的现实,这对金鱼“太残酷了”。对此霍金提出一个庄子式问题:我们又怎么知道我们看到的现实不是扭曲的?金鱼仍然可以对鱼缸外部的世界总结一套物理定律。也许因为坐标系弯曲,金鱼总结的物理定律会比我们总结的要复杂一点,但简单只是个人品味,金鱼的物理学同样正确。

从这个角度说,所有物理定律,乃至所有科学理论,都只不过是主观模型。托勒密的理论说地球静止,太阳绕着地球转;而哥白尼的理论说太阳静止,地球绕着太阳转 — 这两个模型其实都可以用,只不过其中一个比另一个更好用一点。

物理学革命其实就是用一个模型取代另一个模型。我们可以把力解释成一种波动的场,或者空间的弯曲,或者一堆粒子的来回传递,或者又把各种粒子解释成弦的震动。当物理学家发明这些模型的时候,他们心里想的并不是“真实的力到底是什么东西呢?超弦理论符合我的世界观么?”这种哲学问题,他们想的是什么模型有效就用什么模型!

也许与模型无关的“现实概念”根本就不存在,霍金管这个思想叫“依赖模型的现实主义(model-dependent realism)”。这听上去有点像中国人说的“道可道非常道”,又有点像《论语》里面每次有不同的人问孔子“仁”是什么,孔子都给一个“依赖提问者的仁的定义”。但实际上这里面说的是科学这门业务的工作方式,是从来不直接追求那个“最后的,真正的现实”,而只是不停地用不同的模型去模拟现实。

也许有些科学家的确相信绝对真理的存在 — 但科学研究从来不涉及绝对真理。哲学才研究绝对真理。科学研究的是“有效的真理”,是“有限的真理”。两个古代哲学家坐在那里谈论天道怎么样,天道怎么样,说来说去只能是空对空。科学方法的第一个智慧就是我不直接用心去跟“天道”对话,我做几个实验,总结几条规律,形成一个不求天道但求有效的“模型”。

所以当一个科学家说一个真实世界中的什么东西会发生什么情况的时候,他说的实际意思是在他使用的那个模型里,这个东西对应的变量发生了什么状况。他说的是真空农场中的球形鸡1。

在所有科学模型中理论物理是最成功的,而且成功到了不可思议的地步。量子电动力学并不是物理学家关于世界的最新模型,它把各种基本粒子都简单地当做球,完全不考虑原子核内部的相互作用,没有引力,但它却是一个相当完美的模型。它只用非常简单的几个方程,就能够描写原子核和引力之外几乎所有现象,而且这个模型无比精确。费曼曾经在一本通俗读物里自豪地写道,量子电动力学计算的电子自旋磁矩是1.00115965246个玻尔磁子,而实验测量的值1.00115965221,这个误差相当于横跨美国东西海岸,计算从波士顿到帕萨迪纳的距离,结果只差一根头发丝那么细。

我们可以无比准确地预言每一次日食,可以拦截导弹,甚至可以用遥控方法把探测器精确地放置在火星表面指定地点。这些并不完美的物理模型是如此的足够完美,有些人错误地以为科学就应该提供这么精确的答案。但事实是很多重要问题的模型根本做不到这一点。2008年金融危机给人的印象就是所有正规经济学家都没有预见到。格林斯潘说,“我们都错误判断了这个风险。所有人都没想到 — 学术界,联储,监管者。”一时之间批评经济学成了时尚,很多人认为经济学根本不能算科学。

我不知道经济学模型算不算科学,但的确有正规经济学家,在不使用阴谋论的情况下,预警过这场金融危机。去年,2500名经济学家投票选出了对这次危机的最好预测:Steve Keen 早在1995年就搞了一套理论模型,并且从2006年开始使用这个模型每月发布预警报告;Nouriel Roubini在2005年就指出美国房价会在3年内跌30%;而Dean Baker则从2002年开始反复说房价是个泡沫。我们可以看到这些预测有限的,不论是金融危机的规模还是爆发时间,它们都远远谈不上准确。

不论如何,嘲笑经济学模型是从事“硬科学”的科学家,甚至是所有学者最爱干的事情之一。看完《金融时报》上一个历史学家(!)嘲笑经济学家的文章之后,一个物理学家笑了。他说我看经济学模型还算好的,气候模型还不如经济模型。经济学家至少知道模型里面“经济人”是什么东西,而气象学家根本不知道气候模型里的云和海洋混合(ocean mixing)是怎么回事。

他说的是关于模型的重大问题:如果你根本没搞清楚所有的原理和机制,你做的简化距离真实世界非常遥远,你的模型还有意义么?物理大佬 Freeman Dyson 认为没意义。他说,

我没有气象学位,所以我大概没资格谈论这个话题。可是我也研究过这些气象模型,我知道它们能干什么。这些模型对大气和海洋的流体力学方程可以解的很好,但是它们对云,尘埃,地表和森林中生化过程的描写很差。它们根本谈不上描写我们生活的这个真实世界……这就是为什么搞气象模型的这帮人只不过是自己相信自己的模型而已。

那么 IPCC 自己怎么评价气象模型呢?在2007年报告的一个FAQ中,IPCC 表示它对这些模型非常自信。但是在我看来,这份文字写的有点不够意思。IPCC 说这些模型的基本原理是建立在动量能量守恒这些基本物理定律上的,而且还有大量观测事实作为支持。它没说的是模型的“非基本原理”,比如Dyson说的那些东西,是怎么处理的,更没说这些非基本原理能起到多大作用。IPCC 还说这些模型能够成功的模拟当前气候,而且还成功再现了过去100年的气候变化。没错,但IPCC没说的是这正是那些“大量观测事实”支持的结果,是用这些观测事实调参数凑答案的结果(叫做”parameterisation”),这些模型在很大程度上是基于经验的。

其实调参数没有什么不对。根据“依赖模型的现实主义”这个精神,你怎么就能说基本物理定律不是基于经验的呢?气象学家可能的确不怎么理解云,但难道物理学家就敢说自己真的理解电子么?所以我认为 Dyson 的批评等于说黑猫肯定不如白猫,并不重要。重要的是气象模型预测未来的能力怎么样。

有一个关于天气预报的笑话是这么讲的。有人打电话到电台问你们每天预报的降雨概率到底是怎么算出来的?主持人回答说我们一共有十个预报员,每天投票预报,如果有3个人认为会下雨,我们就说降雨概率是30%。IPCC 预测未来的办法跟这个有点类似。一个最常用的办法,是把各个不同气候模型综合起来取平均值。比如把12个国家的17个研究组使用的24个模型取平均。

上面这张图来自IPCC网站,其用现有模型去模拟过去100年的温度变化,看看是否符合观测结果。图中杂乱的黄线是使用14个不同气候模型进行的58次模拟的结果,而红线则是这些结果的平均值,它与实际观测值(黑线)相当接近。

我们可以仔细想想这个事情。IPCC 这个做法相当于投票选举真理。如果我们对气候的认识是完美的,如果科学家明确知道自己在做什么,那么世界上应该只有一个气候模型。现在这种让大家都算一算然后取个平均值的做法,等于说我们不知道到底哪个对,其根本原因在于模型中的物理机制和参数有很多不能确定的地方。而这张图则说明这个做法效果还不错!

但既然你的模型中有很多参数都是用历史数据拟合出来的,这些模型能够再现历史就不奇怪,最关键的测试还是你能不能预测未来。2007年Science上的一篇论文比较了IPCC在1990年对未来气候的预测,与从1990到2006期间的实际观测。图中虚线是IPCC的预测,实线则是观测值。

这是一个非常有意思的结果。尽管我们一再被告知二氧化碳浓度上升主要是人为的,但IPCC对二氧化碳浓度的上升却预测的非常准确(文中解释,这是一个巧合)。它预测得不太准确的是温度上升,它预测得更不准确的则是海平面的上升。但最惊人的是IPCC不是高估了温度和海平面上升,而是低估了。实际情形比IPCC警告我们的更坏。

这张图至少说明在签署京都议定书期间,IPCC 的模型不是故意夸大危险来忽悠世人。此图用的都是1990年的旧模型,那么新模型们是否表现更好呢?一份非正式的研究,把IPCC 2007年的新报告跟从2007到现在的实际观测比较,则发现IPCC高估了温度的上升。

所以用模型预测未来是非常困难的事情,越复杂的模型就越困难,而且越细致的未来就越不好预测。我们看到预测海平面上升已经比预测温度上升困难,那么如果有人想进一步预测全球变暖带来的恶劣气候导致多少“气候难民”,我们就可以想见那是不可能准确的。联合国环境规划署曾经在2005年预测到2010年沿海地区将会有50万气候难民,结果到今年人们发现这些地区的人口不减反增。那么联合国网站怎么办?第一,删除原有预测(有人还是保留了一份证据);第二,不解释;第三,50万难民的预测时间现在被改成2020年了。

不要特别相信那些复杂的模型对未来做出的复杂预测。问题是新闻记者总是比科学家更相信模型。今年初一份气候预测报告说未来十年温度将上升2.4度并导致全球粮食短缺,科学家很快发现报告存在严重错误并且立即撤回了报告 — 可是这时候这个新闻已经被无数媒体广泛报道过了。

2009年,英国女王伊丽莎白质问经济学家说你们就怎么都没预测到这次金融危机呢?经济学家们回信,说经济学这个工作都是各自为战研究具体领域内的小问题的,我们并没有做在一起对世界经济这个整体发挥“集体想象力(collective imagination)”。换句话说,他们玩的都是小模型,没玩过这么大的。

科学家也是这样,一般情况下不想玩大的。科学家玩模型最大的目的其实是想解决小问题,是想通过模型来发现和证实一些小机制。所有玩模型的科学家都知道自己模型的局限性。可是公众和政客非逼着你预测。如果非得预测大的不可,最好还是用 IPCC 爱用的这种多个模型取平均值的办法 — 也叫“发挥集体想象力”。

 

 

 

 

 

———–

  • 1. 那么实验呢?如果有人做实验证明比如说两个铁球同时落地,他难道不就是在揭示一个与模型无关的现实么?没错,但他揭示的现实只是我们眼中的这次试验中的这两个铁球,要想把实验结果推广到所有物体以形成“现实概念”,他就必须制造一个理论,也就是模型。 ↑

科学新闻没告诉你的那些事儿 1

医学研究能当真么?

转基因食品无害。地震不可预测。干旱气候与三峡大坝无关。我们非常关心这些问题,科学家似乎明确地给了答案,可是有人仍然无所是从。我们应该听科学家的么?但科学家肯定经常也会说错。有时候他们说手机辐射可以导致脑癌,有时候又说这种效应根本没有足够证据。有时候他们说大蒜可以降低有害胆固醇,有时候又说大蒜其实不能降低有害胆固醇。这种情况下应该怎么办呢?
(a)以最权威科学家,比如诺贝尔奖得主或者Nature杂志上论文,的意见为主。
(b)以科学家中的“主流意见”(如果“主流”真的存在的话)为主。
(c)以最新发表的意见为主。
(d)别当真,科学新闻可以当娱乐新闻看。

如果这条新闻说的是医学研究,那么最理性的选择是……(d),别当真。那些写在晚报副刊上的各种所谓健康指南,连看都别看。而是那些刊登在主流媒体上,有最新的论文支持的科学新闻,比如说英国某个团队又发现什么东西对儿童智力的新影响了,我们大概可以看,但是看完就可以直接把它忘了。

更进一步,如果这条新闻说的是营养学研究,比如吃什么什么维生素对身体有什么什么好处或坏出,那么哪怕是发表在最权威医学期刊上的那些高引用率论文,也应该全部忽略。

说这句话的人叫 John P.A. Ioannidis,他去年刚刚被任命为斯坦福大学预防医学研究中心主任。Ioannidis 说,“ignore them all”. 他攻击的不仅仅是营养学,而是整个医学研究。2005年,Ioannidis 发表两篇论文,证明大部分医学研究都是错的。这两篇论文在医学界被引用好几百次,但是没有人说他这个看似无比偏激的结论是错的。甚至没人表示惊讶。所有搞医学研究的科学家都知道这个秘密:医学研究根本不靠谱。

但是这件事一直到2010年底才引起公众的关注。首先是亚特兰大月刊发表充满愤怒的长文,标题采用英国首相和马克吐温发明的著名句式:“谎言,该死的谎言,和医学研究”。时代周刊立即跟进,并把结论进一步精简为“90%的医学研究都是错的”!时代周刊这篇报道说,现在已经有人开始真正认真地重新审视整个医学科研,而且立即发现了几个与我们此前的知识完全相反的结论,比如说:

– 没事儿自己检查乳房,不但不会降低乳房癌的死亡率,没准还有坏处;
– 其实科学家并没有足够证据说注射流感疫苗对防治流感有效。

由 Ioannidis 两篇论文引发的这场医学暴动仍在进行之中。今年一月的新闻周刊报道,最近又有两个医学常识被干掉了:

– 不仅仅是大蒜,如果服药者本人没有心脏病史的话,就连那些专门的降低胆固醇的药,其实都没什么作用;
– “补钙要加D”纯属扯淡 — 我们几乎每个人都已经有足够多的维生素D,根本不需要从钙片和善纯片里获得。新的报告说,一般人可以从阳光中(白人每天日照5分钟,有色人种15到20分钟)获得维生素D,而少数青春期女生和老人也许需要通过从食物中补充一点。

所以新闻周刊有充分的理由把这篇报道的标题定为“为什么几乎所有你听说的医学是错的”。

科学新闻常常教育我们要用现代医学的常识去反驳民间偏方,用科学家的论文去反驳普通人的常识,再用欧美科学家的论文去反驳中国科学家的论文。然而现在 Ioannidis 说欧美科学家的论文其实也不可靠。而且错误率是90%?民间偏方没准还比这个好点。所以以上这几篇报道大概也有点标题党,我们必须看看 Ioannidis 到底说了什么。

他一篇发表在 PLoS Medicine 上的文章说,在医学研究中被广泛使用的统计方法,其实是个非常脆弱的体系。如果你的一项研究是考察某种药物对人的健康是否好处,而你希望能证明有好处的话,你将很容易做到这一点。首先,现在大部分医学科研研究的效应其实都是比较微弱的,因为不微弱的效应别人早就研究完了。其次,什么叫对健康有好处?也许一个病人的病情并没有什么明显好转,但因为你希望这个药物有效,你也许会完全无意识的刻意寻找他好转的证据,你可能会把本来没什么好转的病人当成好转的病人。这就是你的偏见。Ioannidis 这篇论文其实全是数学,他做了一番计算,说如果这个微弱效应有10%,而你的偏见有30%的话,你的实验得到正确结论的概率只有20%。

科学家是有偏见的。他可能因为拿了医药公司的资助而希望证明一个药物的疗效,他更可能为了能在发表有轰动效应的论文而追求惊人的结果。鉴于10%的效应率和30%的偏见率差不多就是一般流行病学研究的水平,我们大概可以说80%的流行病学研究都是错的。根据同样的计算,小规模随机试验的可信性也只有23%。Ioannidis 这篇文章就是用数学方法证明这种偏见有多可怕。

光玩数学当然不行,批评现实得有真实证据。这正是Ioannidis另一篇论文干的事情,发表在权威期刊 JAMA上。没有人能把所有医学论文都研究一遍,所以他的做法相当具有戏剧性:他只看1990到2003年间发表在顶级临床医学期刊上的顶级论文,入选标准是被引用超过1000次。符合这个标准的论文一共有49篇,其中45篇声称发现了某种有效的药物或者疗法。

我们都知道科学结果必须都是可重复的,我们不知道的是有多少科学结果真的被人重复过。这45篇论文虽然都被引用了千次以上,其中只有34篇被重复检验过。

而后人检验的结果是其中7篇的结论错误。比如有一篇论文说维生素E对降低男子冠心病风险有好处,有一篇论文说维生素E对降低女子冠心病风险有好处,而后来的大规模随机实验则证明维生素E对降低冠心病风险根本没好处。另有7篇论文被发现是夸大了有效性。也就是说34篇经过检验的论文中的14篇(41%),被发现结论有问题。这45篇最权威的论文中只有20篇接受了并抗过了时间的考验。

顶级论文尚且如此,一般论文又能怎么样呢?真有90%都不可靠么?我从未发现 Ioannidis 说过“90%的医学研究都错了”这句话,时代周刊的报道的确是标题党。

Ioannidis 说的不是90%,而是432分之431。没有人能彻查所有医学论文,所以 Ioannidis 的做法是选择一个热门领域,彻查这个领域内所有的论文。这个领域是研究男女患各种疾病的风险不同,是不是因为基因的影响。在2007年 JAMA 的一篇论文中,Ioannidis 与合作者找到这个领域的所有77篇论文,然后逐篇分析这些论文处理数据的方法是否足够严谨。这些论文一共提出了432个论断,其中只有60个论断可以称得上是方法严谨。而这60个拿的出手的论断中,曾经被其它研究至少重复验证了两次的,只有一个。

如果我们对正确科学论断的要求是方法严谨,结果至少经过两次检验,那么这个领域的合格率只有1/432。如果我们放宽要求,只要一篇论文不被证明是错的,就算它是好论文,那么发表在最权威期刊上的被引用次数最多的医学论文中,有7/45是坏论文。

这七篇坏论文中的两篇说维生素E可以降低冠心病风险,而事实上,后来2000年新英格兰医学杂志上就有文章用超过9000人的严格随机实验证明维生素E根本不能降低冠心病风险,这一结论从此之后再也没被推翻过。那么到底有多少科学家知道这件事儿呢?Ioannidis 等人曾经专门调查了到底有多少论文还在使用“维生素E降低冠心病风险”这个错误知识,结论是一直到2005年,仍有50%的新发论文还在引用前面那两篇错误的顶级论文,并且以为它们是对的。

如果你现在随便找个中国医生问他维生素E是否对冠心病有好处,我敢打赌他说有好处。我在Google用中文搜索“维生素E 冠心病”,第一页的结果全是说有好处,它甚至已经作为常识进入各种医学网站。

肯定有人因为看了2000年之前的新闻报道而大吃维生素E来降低冠心病风险。肯定有人还在吃大蒜降胆固醇。肯定有人还在补钙加D。

把学术论文的结论推广到真实世界的真理,有时候是非常危险的事情。因为不理解科学研究的思维方式,导致大多数人对科学有两个重大误解:第一,认为科学研究绝对真理;第二,认为每一项科研都是在生产我们日常决策的答案。真实的科学研究其实一个充满曲折,甚至有时候错进错出的过程。

更重要的是,科学的野心其实比公众设想的小。而恰恰是因为这个原因,科学才有这么强大的力量。很多论文不严谨,甚至很多都是错的,这并不表明科学中没有正确答案,它只是表明得到和判断正确答案并不简单。

科学报道都是用人类传统语言写成的,而科学研究使用的却不是人类传统语言。所谓“科学方法”,其实是另一套很不一样的思维方式。今天医学研究的悲催现状并不见得就说明科学方法不行。我想用接下来的几篇小文,介绍一下“科学方法”,这种超越了人类本能的思维方式。一个简单的问题是我们凭什么相信“维生素E不能降低冠心病风险”这个结论就是对的?因为有些科学方法比另一些科学方法更可信。我们将说明为什么看新闻不如看论文,为什么看一篇论文不如把多篇论文综合在一起看(称为 meta-analysis),以及为什么这么看还是不行。

科学是成年人玩的东西。我认为抱着谦卑的情绪去“仰望科学”是个错误的态度,正确的视角因该像下棋一样,是俯视。

卢瑟福说全部的科学就是物理学和收集邮票。当然卢瑟福是个物理学家,而且现代有些学科似乎正在超越集邮的阶段……不论如何,我们先谈物理学,再谈集邮的科学。后者对我们更重要,因为绝大多数日常所需的科学都是集邮,而集邮行为非常容易被误解。

注:其他医学研究者并没有对 Ioannidis 揭示的现状无动于衷。有一个成立于1993年的叫做 Cochrane Collaboration 的国际组织,就正在专门严格审视各种医学研究,并且推出了很多报告,而且他们也采纳了 Ioannidis 提出的审查方法。这个组织特别强调经费只来自于政府,大学和私人捐款,而不拿医药公司的钱。…

用癌症换核电的哲学计算

(果壳网,2011年3月22日)

与其说日本地震引发的核泄漏是对核电这种能源前途的考验,不如说是对公众科学素养的考验。“核”使人想到原子弹,本来就不是一个形象好的词,而“核电”则更进一步使人想到癌症。以前人们不喜欢核电,现在人们恐惧核电。最近“安邦咨询首席研究员”陈功,甚至说核电“一旦出大事,四川话都面临消失的危险”。

其无知如此。

所以我们有必要看看核电站能出什么大事。最近有无数篇文章介绍核泄漏的相关知识,这些文章说来说去都是“日本目前辐射剂量多少,天然辐射剂量是多少,而国家标准是多少”之类的数字,效果不是很明显,以至于还是有无数人反对核电。“辐射剂量”其实不是一个好的辐射知识,我想介绍一点更基本的知识,这些知识至关重要,却恰恰没有成为公众的常识。

核爆

在最坏的情况下,哪怕有一帮科学家彻底疯了,要自爆核电站以报复人类,核电站也不会像原子弹一样爆炸。你可能会获得一次常规当量的爆炸,像动作电影里一样,几个房子被炸毁,但绝不是原子弹。因为原材料纯度远远不够。这个知识是容易理解的,如果核爆炸这么容易,某些国家早就有核武器了。事实上,维持核电站反应堆中的链式反应是很不容易的,以至于如果失控,链式反应会立即停止。燃料会继续变热,像日本这样需要灌水冷却,但这种变热不是链式反应,也就是说哪怕你不管了,让燃料自己慢慢冷却,它也不会发生核爆。

核电事故的有害性在于辐射。在最坏的情况下核电站的工作人员会因为辐射在几周之内死亡。但这种辐射引起的直接死亡并不影响公众利益,因为任何工厂的大事故都可能导致工作人员死亡,核电站并不特殊。

所以在任何情况下核电站都不会导致四川话消失。核电站泄漏对公众的真正危害是癌症。所有人都知道辐射导致癌症,但很少有人注意到一个更重要的事实:不辐射也可能得癌症。

癌症

根据美国国家癌症研究所对美国17个地区统计的最新数据,一个人一生之中得癌症的概率是44.29%,最终因癌症而死的概率则是21.15%。注意美国是个发达国家。世界卫生组织的数据显示,全世界范围内死于癌症的概率只有13%,这是因为不发达国家的人还没等到得癌症死就已经因为别的原因死了。

美国的数据给出了一个人患癌症的基础概率。有些癌症可以用吸烟和环境之类的原因解释,有些癌症则无法解释。哪怕你的生活方式再健康,你的食物再有机,你的环境再清洁,你再远离各种核辐射,你也有差不多20%的可能性死于癌症。科学家搞不清楚为什么会是这样,但事实就是这样。

我们需要一点概率意识。并不是说一旦被核辐射了,25年或者多少年内就一定会得癌症。核辐射致癌的数学是在20%的“基础概率”上的基础上,增加人死于癌症的概率。这个被增加的概率与辐射的剂量成正比,具体地说就是每受到25雷姆的辐射,得癌症的概率增加一个百分点。这里“雷姆”(rem)是对人体有效的辐射计量单位,换算成媒体报道常用的单位“西弗”(Sv),是1雷姆=10毫西弗=10000微西弗。

100雷姆(也就是1000毫西弗)以下的辐射不会对人体产生直接的影响,唯一的可能就是长期看来得癌症的概率增加了4个百分点。所以“雷姆”和“西弗”都不是衡量辐射剂量的好单位,“癌症增加概率”才是好单位。

据报道,日本距离福岛最近的三个县中目前辐射剂量最高的是茨城县,为每小时0.169微西弗。在这个剂量下要想使一个人死于癌症的概率增加1个百分点,他必须在茨城县生活250000/0.169/24/365=168年。注意这还不算辐射剂量会随时间下降。如果有人认为自己所在城市的空气污染导致增加的癌症概率高于一个百分点,而茨城县又想吸引移民的话,他现在就可以搬过去了。

以上计算的一个缺陷是我们没有考虑到核泄漏初期的辐射。那个时候的辐射剂量要强得多,如果核电站是建在人口比较密集的地方,那么可能会有很多人因为重大事故而一次性地“被增加”不少癌症概率。同时,核辐射的确有可能漂洋过海影响邻国。也许邻国受到的辐射剂量非常微小,但微小的剂量也有可能增加癌症率啊。所以更有意义的数字,是一次核电站事故总共可以增加多少癌症患者。这个数字很难算,但我们有三个历史上的例子。

第一个例子是长崎和广岛的两颗原子弹。据估计,在原子弹的10万幸存者中,平均每人受到的辐射剂量大约是20雷姆 — 也就是说每人被增加的癌症概率是0.8%。这相当于10万人中有800个本来不应该死于癌症的人最后死于癌症。这10万人中本来应该有至少20000人死于癌症,现在变成了20800人。

第二个例子是切尔诺贝利。切尔诺贝利核电站的设计非常之差,甚至没有一个有效建筑把反应堆隔离一下。这导致被事故直接影响的3万人平均受到的辐射剂量是45雷姆(高于原子弹),他们被增加的癌症概率是1.8%。这意味着3万人中有500人得了不该得的癌症。

切尔诺贝利事故总共导致了多少癌症?2006年,国际原子能机构估计它的总影响是使4000人得了不该得的癌症,但这个估计是建立在严格的辐射-癌症正比关系上的,也就是说哪怕你受到的辐射再小也会增加一定的癌症概率。很多科学家对这个关系有争议,认为如果辐射剂量小于6雷姆(相当于6万微西弗),那么根本就不会增加癌症概率。也就是说国际原子能机构的估计是上限。

第三个例子是1979年的美国三里岛事故。这个核电站按今天标准也不行,如果设计的更合理一点,事故是可以避免的。那么这个事故增加了多少癌症呢?计算表明是,一个。实际上,2002年的一个研究表明三里岛居民的癌症率根本就没有显著增加。更有意思的是三里岛核电站所在地因为土壤里存在天然铀,其辐射本底本来就高。三里岛附近居住的5万居民,就算没有核电站,也会有60人因为死于天然核辐射导致的癌症。

中国和美国的国家标准都是规定一般公众每年受到的辐射剂量不超过1毫西弗,也就是0.1雷姆。如果按照这个标准,茨城县因为每年的辐射剂量(假设剂量不变)是1.48毫西弗,就超标了。但国家标准是一个相当保守的规定。这个标准是建立在前面说过的辐射-癌症正比关系上的,也就是说它认为不管辐射的剂量多么小,都会带来癌症。就算我们认为这个正比关系成立,那么0.1雷姆标准背后的逻辑是它会增加0.004%的癌症概率。

如果你不知道这个癌症概率,只看辐射国家辐射标准的话,你就丧失了在不同癌症之间权衡比较的权力。一个辐射超标但是空气清洁的城市是不是比一个空气污染但是辐射达标的城市更安全?1毫西弗标准不能告诉我们这些。实际上,丹佛附近的天然辐射剂量就超过国家标准。一个丹佛居民每年受到的辐射差不多正好比一个纽约居民高1毫西弗。然而丹佛的癌症发病率低于美国大部分地区。

所以国家标准其实是个人治标准。对于决策者而言,辐射-癌症关系远远比国家标准更有参考价值。因为国家标准的存在,公众得到的是经过封装的科学知识。公众害怕的不是辐射,而是对国家标准的践踏。这正如公众恐惧的不是癌症,而是因为“奇怪”原因导致的癌症。

哲学

现有的核电站,更不必说在建的核电站,其安全水平都绝对超过切尔诺贝利。这次日本地震产生的核电站癌症能有多少?要知道切尔诺贝利的上限才4000人。现在我们用最保守的估计,假设全世界的核电站每隔十年就会发生一次切尔诺贝利水平的大事故,导致4000人死于癌症。那么每年因为核电站而死于癌症的人将是400人。

我们的问题是,这种情况能坏道哪去呢?或者说,我们有权为了取得能源而牺牲这四百个人么?

这显然不是一个物理问题,有些哲学家会认为这是一个哲学问题。据说有个哲学家曾经提出一个“头疼问题”。说假设现在有10亿人正在轻微地头疼,如果你杀死一个无辜者,那么这10亿人的头疼立即就能好,请问你杀还是不杀呢?

我猜很多人可能会选择不杀。具体到核电站,也会有很多人选择宁可不要核电也不能牺牲四百个无辜的生命。但也有一些人会认为牺牲是值得的。我最近看了一点《借枪》,地下党行动组组长铁锤就认为牺牲学生去刺杀加藤是值得的,而熊阔海则认为不值得。所以这位哲学家煞有其事地把这个问题提出来,好像此题无解一样。

可是事实是我们中的所有人,早就选择杀了!每年死于交通事故的人数以十万计,可是我们该开车开车该坐车坐车。从来没有人提议禁止一切汽车。

更重要的是,我国每年有数以千计的矿工死于煤矿。更不用说因为烧煤产生的污染,导致的各种病症只会更多。而烧煤,正是为了发电,这就是中国目前发电的绝对主力:火力发电。我们用着拿别人生命换来的电,心安理得。跟火电相比,核电就好像民主制度一样,虽然也不是个好的发电方式,却是“最不坏”的发电方式。

铁锤说,让加藤多活一天,我们都是犯罪。如果不尽快上核电,让火电多活一天,我们也是犯罪。


本文所有物理知识来自 Physics for Future Presidents 一书,说的都是物理学家的常识。如果说总统需要物理知识的话,“咨询研究员”就更需要了。…