在你的第十二条染色体上有个叫做 LRRK2 的基因。我们假设,仅仅是假设,这个基因有一个小小的变异。这个变异的结果是使你有30%到75%的可能性在未来患上帕金森综合症。

帕金森综合症的原理大约是大脑出于某种原因降低了对多巴胺神经元的生产,而这些多巴胺神经元对控制身体运动至关重要,结果就是逐渐失去行动能力。很多名人,包括一些特别有学问的人得这个病。大脑为什么会出这种问题,怎么治疗,科学家并不知道。

不用说治疗,甚至连 LRRK2 基因与帕金森症的关系,都是直到2004年才被发现,此前人们甚至认为帕金森症不会遗传。

你怎么办呢?

好消息是并非所有LRRK2基因变异的人都会得帕金森症。这个事实暗示了一种思路。这个思路并不奇特甚至司空见惯,但由于当前技术的进步,它正在变成一个了不起的思路。微软公司对这个思路非常兴奋,称之为 “the fourth paradigm of science”,第四个科研范式。

这个思路是,那些同样有LRRK2基因变异的人,他们到底做了什么,以至于没有得病?也许我们不会知道其中的原理,但只要能找到这么一件事,做了这件事就不怕LRRK2基因变异,那就已经足够好了。就好像《午夜凶铃》中死的人多了以后,人们发现只要做把录像带传给别人看这件事就不会死一样。

这就是 Google 创始人之一,LRRK2基因变异者,Sergey Brin 要做的事。他的爸爸是数学家,他的妈妈是应用数学家,他自己本科在是数学系念的,所以他治病的办法是玩数据。

Brin 的老婆搞了个个人基因服务公司,23andMe。据最新一期《连线》杂志报道,借助这个公司,Brin 有一个系统的,或者说暴力的,解决帕金森综合症的办法。我理解这个办法是这样的:

1. 召集一万名帕金森症患者,彻查他们的基因,问卷调查他们的既往病史,生活环境和所有生活习惯,从中发现共性。这些共性可能就是帕金森症的病因。

2. 再去找那些也有这些共性的人但是没有得帕金森症的人,看看他们做了什么,其中有什么共性。这个共性就是防治办法。

这的确是非常简单的思路,但是要做的话却是相当的难。一个显而易见的难点是数据量实在太大。进行这样海量的数据分析,非得有今天最强的计算机,尤其是极高的数据存储能力不可。这就是微软对此兴奋的原因。想法是容易的,技术条件是困难的。搞这样的科研对微软来说是非常好的机会(至少可以提升公司形象),以至于微软找了一帮人,整了一本书,The Fourth Paradigm: Data-Intensive Scientific Discovery,并大力推广。(微软提供全文免费下载)。

下面我来谈谈我的看法。

所谓科学发现的前三个范式,是第一,实验;第二,理论;第三,模拟。我认为从“硬度”角度讲,这三个范式的重要性一个比一个低。实验是最硬的科学发现,你理论说得再漂亮,宇宙加速膨胀就是加速膨胀,Higgs 粒子万一找不到就是找不到,这是实打实的东西。

而模拟则是实验不好做,理论计算又没法算的情况下一个没有办法的办法。如果你承认我用的方程都是对的,你大约也会承认我模拟的结果,但这个结果永远都需要实验的检验。

与这三个范式相比,这个“第四范式”的硬度更低一些。它既不能像理论和模拟那样在一定程度上告诉你“为什么”,更不能像实验那样明确地告诉你“是什么”。海量数据分析,只能告诉你“大概是什么”。比如数据分析可以告诉你喝咖啡对降低帕金森症发病率有好处,但是说不清到底是咖啡因的作用还是别的作用。它甚至说不清这种好处到底有多大。

历史上阿司匹林对很多病症有疗效,而科学家并不知道为什么会有这种疗效。这些疗效都是“统计”发现的。

实际上,科学家一直都在从以往数据中寻找规律,提出猜想,再做验证。这就是所谓 “empirical study”,或者物理学家有时候使用的“经验公式”。《连线》这篇文章提供的那个图示的证明 Gaucher’s disease 患者得帕金森症的可能性高五倍的例子,并没有说明白现在这个“第四范式”与此有什么不同,无非是海量数据分析的数据库更大而已。

我认为,其实“第四范式”的真正了不起之处在于“客观”这两个字。此前,模式识别主要是主观的。是人在经验中发现规律,提出一个主观的假设,再去搜集更多案例来验证这个假设。而现在这个第四范式,则是让计算机自己从海量的数据发现模式,也就是共性,是客观的。这样就允许我们有一些惊喜。

但是很多人并不看好这个做法,因为数据的噪音太大。

还有一个更根本的困难。以帕金森症为例,也许发病的原因和不发病的原因都是不可观测的,比如说纯粹的偶然因素,或者说是问卷调查问不出来的因素。一个人的基因和生活自由度实在是太多,程序永远都不可能确保把所有的变量都考察到。纯粹的客观其实是做不到的,在你设定问卷内容的同时,你已经主观地设定了你想要考察的范围。第四范式要想有所发现,还是需要一点运气的。

不过 Brin 显然有理由看好这个做法。从海量数据中发现趋势是 google 一直都在做的,比如说通过搜索关键词的趋势判断流感,google 比CDC要快得多。假设 google 有一个机制自动发现任何被突然大量搜索的词,这种模式识别显然就是真正客观而不是主观的。人的生活自由度几乎是无限的,但所有词汇的组合是有限的,可是我怀疑这种组合的数字之大,就连 google 也做不到实时监控每一个可能的搜索组合。更实际的做法也许还是大量地预先设定一些可能有意义的关键词。

所以我认为“更客观的模式识别”,是第四范例的关键。

(此文昨天发出之后今日略作补充)