医学研究能当真么?

转基因食品无害。地震不可预测。干旱气候与三峡大坝无关。我们非常关心这些问题,科学家似乎明确地给了答案,可是有人仍然无所是从。我们应该听科学家的么?但科学家肯定经常也会说错。有时候他们说手机辐射可以导致脑癌,有时候又说这种效应根本没有足够证据。有时候他们说大蒜可以降低有害胆固醇,有时候又说大蒜其实不能降低有害胆固醇。这种情况下应该怎么办呢?
(a)以最权威科学家,比如诺贝尔奖得主或者Nature杂志上论文,的意见为主。
(b)以科学家中的“主流意见”(如果“主流”真的存在的话)为主。
(c)以最新发表的意见为主。
(d)别当真,科学新闻可以当娱乐新闻看。

如果这条新闻说的是医学研究,那么最理性的选择是……(d),别当真。那些写在晚报副刊上的各种所谓健康指南,连看都别看。而是那些刊登在主流媒体上,有最新的论文支持的科学新闻,比如说英国某个团队又发现什么东西对儿童智力的新影响了,我们大概可以看,但是看完就可以直接把它忘了。

更进一步,如果这条新闻说的是营养学研究,比如吃什么什么维生素对身体有什么什么好处或坏出,那么哪怕是发表在最权威医学期刊上的那些高引用率论文,也应该全部忽略。

说这句话的人叫 John P.A. Ioannidis,他去年刚刚被任命为斯坦福大学预防医学研究中心主任。Ioannidis 说,“ignore them all”. 他攻击的不仅仅是营养学,而是整个医学研究。2005年,Ioannidis 发表两篇论文,证明大部分医学研究都是错的。这两篇论文在医学界被引用好几百次,但是没有人说他这个看似无比偏激的结论是错的。甚至没人表示惊讶。所有搞医学研究的科学家都知道这个秘密:医学研究根本不靠谱。

但是这件事一直到2010年底才引起公众的关注。首先是亚特兰大月刊发表充满愤怒的长文,标题采用英国首相和马克吐温发明的著名句式:“谎言,该死的谎言,和医学研究”。时代周刊立即跟进,并把结论进一步精简为“90%的医学研究都是错的”!时代周刊这篇报道说,现在已经有人开始真正认真地重新审视整个医学科研,而且立即发现了几个与我们此前的知识完全相反的结论,比如说:

– 没事儿自己检查乳房,不但不会降低乳房癌的死亡率,没准还有坏处;
– 其实科学家并没有足够证据说注射流感疫苗对防治流感有效。

由 Ioannidis 两篇论文引发的这场医学暴动仍在进行之中。今年一月的新闻周刊报道,最近又有两个医学常识被干掉了:

– 不仅仅是大蒜,如果服药者本人没有心脏病史的话,就连那些专门的降低胆固醇的药,其实都没什么作用;
– “补钙要加D”纯属扯淡 — 我们几乎每个人都已经有足够多的维生素D,根本不需要从钙片和善纯片里获得。新的报告说,一般人可以从阳光中(白人每天日照5分钟,有色人种15到20分钟)获得维生素D,而少数青春期女生和老人也许需要通过从食物中补充一点。

所以新闻周刊有充分的理由把这篇报道的标题定为“为什么几乎所有你听说的医学是错的”。

科学新闻常常教育我们要用现代医学的常识去反驳民间偏方,用科学家的论文去反驳普通人的常识,再用欧美科学家的论文去反驳中国科学家的论文。然而现在 Ioannidis 说欧美科学家的论文其实也不可靠。而且错误率是90%?民间偏方没准还比这个好点。所以以上这几篇报道大概也有点标题党,我们必须看看 Ioannidis 到底说了什么。

他一篇发表在 PLoS Medicine 上的文章说,在医学研究中被广泛使用的统计方法,其实是个非常脆弱的体系。如果你的一项研究是考察某种药物对人的健康是否好处,而你希望能证明有好处的话,你将很容易做到这一点。首先,现在大部分医学科研研究的效应其实都是比较微弱的,因为不微弱的效应别人早就研究完了。其次,什么叫对健康有好处?也许一个病人的病情并没有什么明显好转,但因为你希望这个药物有效,你也许会完全无意识的刻意寻找他好转的证据,你可能会把本来没什么好转的病人当成好转的病人。这就是你的偏见。Ioannidis 这篇论文其实全是数学,他做了一番计算,说如果这个微弱效应有10%,而你的偏见有30%的话,你的实验得到正确结论的概率只有20%。

科学家是有偏见的。他可能因为拿了医药公司的资助而希望证明一个药物的疗效,他更可能为了能在发表有轰动效应的论文而追求惊人的结果。鉴于10%的效应率和30%的偏见率差不多就是一般流行病学研究的水平,我们大概可以说80%的流行病学研究都是错的。根据同样的计算,小规模随机试验的可信性也只有23%。Ioannidis 这篇文章就是用数学方法证明这种偏见有多可怕。

光玩数学当然不行,批评现实得有真实证据。这正是Ioannidis另一篇论文干的事情,发表在权威期刊 JAMA上。没有人能把所有医学论文都研究一遍,所以他的做法相当具有戏剧性:他只看1990到2003年间发表在顶级临床医学期刊上的顶级论文,入选标准是被引用超过1000次。符合这个标准的论文一共有49篇,其中45篇声称发现了某种有效的药物或者疗法。

我们都知道科学结果必须都是可重复的,我们不知道的是有多少科学结果真的被人重复过。这45篇论文虽然都被引用了千次以上,其中只有34篇被重复检验过。

而后人检验的结果是其中7篇的结论错误。比如有一篇论文说维生素E对降低男子冠心病风险有好处,有一篇论文说维生素E对降低女子冠心病风险有好处,而后来的大规模随机实验则证明维生素E对降低冠心病风险根本没好处。另有7篇论文被发现是夸大了有效性。也就是说34篇经过检验的论文中的14篇(41%),被发现结论有问题。这45篇最权威的论文中只有20篇接受了并抗过了时间的考验。

顶级论文尚且如此,一般论文又能怎么样呢?真有90%都不可靠么?我从未发现 Ioannidis 说过“90%的医学研究都错了”这句话,时代周刊的报道的确是标题党。

Ioannidis 说的不是90%,而是432分之431。没有人能彻查所有医学论文,所以 Ioannidis 的做法是选择一个热门领域,彻查这个领域内所有的论文。这个领域是研究男女患各种疾病的风险不同,是不是因为基因的影响。在2007年 JAMA 的一篇论文中,Ioannidis 与合作者找到这个领域的所有77篇论文,然后逐篇分析这些论文处理数据的方法是否足够严谨。这些论文一共提出了432个论断,其中只有60个论断可以称得上是方法严谨。而这60个拿的出手的论断中,曾经被其它研究至少重复验证了两次的,只有一个。

如果我们对正确科学论断的要求是方法严谨,结果至少经过两次检验,那么这个领域的合格率只有1/432。如果我们放宽要求,只要一篇论文不被证明是错的,就算它是好论文,那么发表在最权威期刊上的被引用次数最多的医学论文中,有7/45是坏论文。

这七篇坏论文中的两篇说维生素E可以降低冠心病风险,而事实上,后来2000年新英格兰医学杂志上就有文章用超过9000人的严格随机实验证明维生素E根本不能降低冠心病风险,这一结论从此之后再也没被推翻过。那么到底有多少科学家知道这件事儿呢?Ioannidis 等人曾经专门调查了到底有多少论文还在使用“维生素E降低冠心病风险”这个错误知识,结论是一直到2005年,仍有50%的新发论文还在引用前面那两篇错误的顶级论文,并且以为它们是对的。

如果你现在随便找个中国医生问他维生素E是否对冠心病有好处,我敢打赌他说有好处。我在Google用中文搜索“维生素E 冠心病”,第一页的结果全是说有好处,它甚至已经作为常识进入各种医学网站。

肯定有人因为看了2000年之前的新闻报道而大吃维生素E来降低冠心病风险。肯定有人还在吃大蒜降胆固醇。肯定有人还在补钙加D。

把学术论文的结论推广到真实世界的真理,有时候是非常危险的事情。因为不理解科学研究的思维方式,导致大多数人对科学有两个重大误解:第一,认为科学研究绝对真理;第二,认为每一项科研都是在生产我们日常决策的答案。真实的科学研究其实一个充满曲折,甚至有时候错进错出的过程。

更重要的是,科学的野心其实比公众设想的小。而恰恰是因为这个原因,科学才有这么强大的力量。很多论文不严谨,甚至很多都是错的,这并不表明科学中没有正确答案,它只是表明得到和判断正确答案并不简单。

科学报道都是用人类传统语言写成的,而科学研究使用的却不是人类传统语言。所谓“科学方法”,其实是另一套很不一样的思维方式。今天医学研究的悲催现状并不见得就说明科学方法不行。我想用接下来的几篇小文,介绍一下“科学方法”,这种超越了人类本能的思维方式。一个简单的问题是我们凭什么相信“维生素E不能降低冠心病风险”这个结论就是对的?因为有些科学方法比另一些科学方法更可信。我们将说明为什么看新闻不如看论文,为什么看一篇论文不如把多篇论文综合在一起看(称为 meta-analysis),以及为什么这么看还是不行。

科学是成年人玩的东西。我认为抱着谦卑的情绪去“仰望科学”是个错误的态度,正确的视角因该像下棋一样,是俯视。

卢瑟福说全部的科学就是物理学和收集邮票。当然卢瑟福是个物理学家,而且现代有些学科似乎正在超越集邮的阶段……不论如何,我们先谈物理学,再谈集邮的科学。后者对我们更重要,因为绝大多数日常所需的科学都是集邮,而集邮行为非常容易被误解。

注:其他医学研究者并没有对 Ioannidis 揭示的现状无动于衷。有一个成立于1993年的叫做 Cochrane Collaboration 的国际组织,就正在专门严格审视各种医学研究,并且推出了很多报告,而且他们也采纳了 Ioannidis 提出的审查方法。这个组织特别强调经费只来自于政府,大学和私人捐款,而不拿医药公司的钱。