在你的第十二条染色体上有个叫做 LRRK2 的基因。我们假设,仅仅是假设,这个基因有一个小小的变异。这个变异的结果是使你有30%到75%的可能性在未来患上帕金森综合症。
帕金森综合症的原理大约是大脑出于某种原因降低了对多巴胺神经元的生产,而这些多巴胺神经元对控制身体运动至关重要,结果就是逐渐失去行动能力。很多名人,包括一些特别有学问的人得这个病。大脑为什么会出这种问题,怎么治疗,科学家并不知道。
不用说治疗,甚至连 LRRK2 基因与帕金森症的关系,都是直到2004年才被发现,此前人们甚至认为帕金森症不会遗传。
你怎么办呢?
好消息是并非所有LRRK2基因变异的人都会得帕金森症。这个事实暗示了一种思路。这个思路并不奇特甚至司空见惯,但由于当前技术的进步,它正在变成一个了不起的思路。微软公司对这个思路非常兴奋,称之为 “the fourth paradigm of science”,第四个科研范式。
这个思路是,那些同样有LRRK2基因变异的人,他们到底做了什么,以至于没有得病?也许我们不会知道其中的原理,但只要能找到这么一件事,做了这件事就不怕LRRK2基因变异,那就已经足够好了。就好像《午夜凶铃》中死的人多了以后,人们发现只要做把录像带传给别人看这件事就不会死一样。
这就是 Google 创始人之一,LRRK2基因变异者,Sergey Brin 要做的事。他的爸爸是数学家,他的妈妈是应用数学家,他自己本科在是数学系念的,所以他治病的办法是玩数据。
Brin 的老婆搞了个个人基因服务公司,23andMe。据最新一期《连线》杂志报道,借助这个公司,Brin 有一个系统的,或者说暴力的,解决帕金森综合症的办法。我理解这个办法是这样的:
1. 召集一万名帕金森症患者,彻查他们的基因,问卷调查他们的既往病史,生活环境和所有生活习惯,从中发现共性。这些共性可能就是帕金森症的病因。
2. 再去找那些也有这些共性的人但是没有得帕金森症的人,看看他们做了什么,其中有什么共性。这个共性就是防治办法。
这的确是非常简单的思路,但是要做的话却是相当的难。一个显而易见的难点是数据量实在太大。进行这样海量的数据分析,非得有今天最强的计算机,尤其是极高的数据存储能力不可。这就是微软对此兴奋的原因。想法是容易的,技术条件是困难的。搞这样的科研对微软来说是非常好的机会(至少可以提升公司形象),以至于微软找了一帮人,整了一本书,The Fourth Paradigm: Data-Intensive Scientific Discovery,并大力推广。(微软提供全文免费下载)。
下面我来谈谈我的看法。
所谓科学发现的前三个范式,是第一,实验;第二,理论;第三,模拟。我认为从“硬度”角度讲,这三个范式的重要性一个比一个低。实验是最硬的科学发现,你理论说得再漂亮,宇宙加速膨胀就是加速膨胀,Higgs 粒子万一找不到就是找不到,这是实打实的东西。
而模拟则是实验不好做,理论计算又没法算的情况下一个没有办法的办法。如果你承认我用的方程都是对的,你大约也会承认我模拟的结果,但这个结果永远都需要实验的检验。
与这三个范式相比,这个“第四范式”的硬度更低一些。它既不能像理论和模拟那样在一定程度上告诉你“为什么”,更不能像实验那样明确地告诉你“是什么”。海量数据分析,只能告诉你“大概是什么”。比如数据分析可以告诉你喝咖啡对降低帕金森症发病率有好处,但是说不清到底是咖啡因的作用还是别的作用。它甚至说不清这种好处到底有多大。
历史上阿司匹林对很多病症有疗效,而科学家并不知道为什么会有这种疗效。这些疗效都是“统计”发现的。
实际上,科学家一直都在从以往数据中寻找规律,提出猜想,再做验证。这就是所谓 “empirical study”,或者物理学家有时候使用的“经验公式”。《连线》这篇文章提供的那个图示的证明 Gaucher’s disease 患者得帕金森症的可能性高五倍的例子,并没有说明白现在这个“第四范式”与此有什么不同,无非是海量数据分析的数据库更大而已。
我认为,其实“第四范式”的真正了不起之处在于“客观”这两个字。此前,模式识别主要是主观的。是人在经验中发现规律,提出一个主观的假设,再去搜集更多案例来验证这个假设。而现在这个第四范式,则是让计算机自己从海量的数据发现模式,也就是共性,是客观的。这样就允许我们有一些惊喜。
但是很多人并不看好这个做法,因为数据的噪音太大。
还有一个更根本的困难。以帕金森症为例,也许发病的原因和不发病的原因都是不可观测的,比如说纯粹的偶然因素,或者说是问卷调查问不出来的因素。一个人的基因和生活自由度实在是太多,程序永远都不可能确保把所有的变量都考察到。纯粹的客观其实是做不到的,在你设定问卷内容的同时,你已经主观地设定了你想要考察的范围。第四范式要想有所发现,还是需要一点运气的。
不过 Brin 显然有理由看好这个做法。从海量数据中发现趋势是 google 一直都在做的,比如说通过搜索关键词的趋势判断流感,google 比CDC要快得多。假设 google 有一个机制自动发现任何被突然大量搜索的词,这种模式识别显然就是真正客观而不是主观的。人的生活自由度几乎是无限的,但所有词汇的组合是有限的,可是我怀疑这种组合的数字之大,就连 google 也做不到实时监控每一个可能的搜索组合。更实际的做法也许还是大量地预先设定一些可能有意义的关键词。
所以我认为“更客观的模式识别”,是第四范例的关键。
(此文昨天发出之后今日略作补充)
#1 by 被讥笑为科学主义者的人 on 六月 24, 2010 - 4:24 下午
Quote
4-〉2-〉1or3可以成为完整的研究过程。
#2 by 同人于野 on 六月 24, 2010 - 4:28 下午
Quote
的确,其实大多数科学发现都是从4开始的,所以这个“第四范式”并没有太大的新意。
Pingback: Tweets that mention 第四个科学发现范式 « 学而时嘻之 -- Topsy.com
#3 by 野草博客 on 六月 24, 2010 - 5:11 下午
Quote
感谢分享。
尤其是,野草有家人也患有帕金森病……
#4 by bai_qi on 六月 24, 2010 - 6:26 下午
Quote
这不就是数据挖掘嘛?
沃尔玛用数据挖掘技术无意中发现婴儿尿布与啤酒的销量呈现正相关的关系,进一步分析发现是年轻的爸爸经常会被妈妈叫去买尿布,有时就会顺手捎一支啤酒回来呷。
后面沃尔玛就把啤酒与尿布安排在同一个地方,结果,啤酒销量大涨!!
#5 by 同人于野 on 六月 25, 2010 - 12:36 上午
Quote
这个道理肯定是对的,但这个例子可能有点问题。商店里的啤酒一般会冷藏,这样的话不太可能跟尿布放在一起。另外尿布不长买,一般一买就是好几箱,而啤酒是要常买的。而且尿布的销量似乎应该是全年都差不多,啤酒则明显夏季更多一些,这样看来二者之间的相关性不应该太明显。
#6 by larry on 七月 15, 2010 - 7:40 上午
Quote
这个只是数据挖掘学界一直引用的一个“经典案例”而已,只是说明了技术可行性,在商业上没有可拷贝性,没有可商业执行性。不必较真。
http://www.itpub.net/viewthread.php?tid=1281661
#7 by XYZ on 六月 24, 2010 - 7:41 下午
Quote
Google不是一直有关键字搜索趋势么?但是一般大量的搜索的都是娱乐性质的把,如果是这样的客观不一定有用,说道底对于关键字的筛选,还是要人为设置模式识别判断的范式把?
#8 by xiang on 六月 24, 2010 - 8:15 下午
Quote
万老师的渊博程度已经超越了我想象的极限……
#9 by 同人于野 on 六月 25, 2010 - 12:32 上午
Quote
不敢当,大部分内容是看到而不是想到的。
#10 by 同人于野 on 六月 25, 2010 - 12:28 上午
Quote
稍微补充了一点内容。
#11 by liming on 六月 25, 2010 - 1:01 上午
Quote
关于“假设 google 有一个机制自动发现任何被突然大量搜索的词,这种模式识别显然就是真正客观而不是主观的。”
可以百分百确定,google有这个机制和能力。——几乎所有的搜索引擎大概都有这能力,百度也有,“上升最快风云榜”就是一个产出。
#12 by 同人于野 on 六月 27, 2010 - 2:17 下午
Quote
那些风云榜不可能自动发现所有的词,我认为其中一定有主观的设定。
#13 by limingx on 三月 7, 2015 - 11:57 上午
Quote
是的,风云榜是对公众公开的,因此其中会有一定的过滤(黄反作弊刷词等)
#14 by 奇婕 on 六月 25, 2010 - 6:30 下午
Quote
嗯,看你的博客感觉收获很多,特别启发思路。
谢谢
这个数据挖掘的工作有点大海捞针的意思,工作比较机械,但关键的还是人的思想。
#15 by 同人于野 on 六月 27, 2010 - 2:16 下午
Quote
这个“第四代”高就高在要大海捞针,要机械。否则就是一般意义的经验公式了。
#16 by chili on 六月 27, 2010 - 4:49 上午
Quote
流行病学研究,大量病例统计是普通方法。
google们对医疗表现出极大兴趣是理所当然的。
比如美国的电子病历系统,遭到医院的强烈抵制,花费无数的钱才启动。
病历从纸张变成数据存储,看似简单的变化,也有极深的未来影响。一旦数百万数千万病历都存储起来后,google就可以从这些人的病历中挖掘各种相关性。一个人如果要检查身体,搜索引擎就可以根据你的年龄体重家庭背景,然后和数百万既往病历对比,找出最大可能性。
一句话,搜索引擎的诊断,要远远比任何内科医生都精准。
#17 by 同人于野 on 六月 27, 2010 - 2:12 下午
Quote
这样用数据分析方法搞出来的一个诊断软件叫做 Isabel,我记得好像是被微软收购了。我估计搜索引擎恐怕目前还没有碰专业的医疗数据库。Google 分析流感也只是看人们在其网站搜索的关键词而已。医疗数据库需要医院的配合,Isabel 这样的软件是跟医院关系密切的人整出来的。当然原理还是一样的,技术就那么几下子没什么了不起,有没有足够大的数据库才是关键。
#18 by Fleeting Years on 六月 27, 2010 - 7:30 下午
Quote
似乎有一些问题,如果我没有理解错的话,这样筛选出来的数据有可能不存在因果关系……
比如,“喝咖啡对降低帕金森症发病率有好处”,可能实际上两者并没有因果关系,可能一者是另一者的伴随结果或同为另一个原因的结果,甚至我们不知道因果是否倒置,可能是某些细菌导致口感改变且降低发病率,或可能是降低发病率时的生理反应导致口感改变。
另外,我对这种方法前途不看好,不主观限定而分析的话数据的变量太多了,主观的确定范围反倒很容易忽略真正的原因:毕竟攻克不下的难关突破口很可能在意想不到的地方,这是一二三四范式方法都很难触及找到的。
#19 by 同人于野 on 六月 28, 2010 - 7:09 上午
Quote
的确如此,correlation 不代表因果关系,但就目前而言能得到 correlation 就不错了,是一切的一切的第一步。
#20 by Nicttism-online on 七月 2, 2010 - 10:35 上午
Quote
what I was looking for, thanks
#21 by hplonline on 七月 8, 2010 - 4:03 下午
Quote
嗯,听说一个新名词。就像上面同学说的,一般的研究也就是从4开始的。只是大部分时候开始得很偶然,取决于人对于数据的敏感程度。比如苹果向下掉是大家都会在生活中获得的数据,但在看了很多次这个数据之后,牛顿终于想到什么。。而4范式的感觉是,希望实现海量的存储,海量的实时分析,让本身不对任何东西敏感的机器,使用人类定义“敏感”的有限种方法,来发现新的东西。比如ddos攻击的时候,通过路由器的目的IP的信息熵可能瞬间降低。
#22 by feiqu on 七月 9, 2010 - 9:01 下午
Quote
我正面临处理海量数据的问题,试试看!
楼主对网络爬虫技术怎么看?
#23 by 小僧 on 十二月 8, 2010 - 5:50 下午
Quote
我只看到一句话
“这个思路并不奇特甚至司空见惯”
#24 by LeesLee on 四月 8, 2011 - 6:48 下午
Quote
只有变异影响到了生理的正常运行才成为病。
染色体上不全是基因,相当多的DNA片段不参与蛋白质的制作,发生变异一般不产生影响
Trackback: 重庆seo优化
#25 by ldegg220 on 十一月 12, 2012 - 7:16 上午
Quote
请问对于人文学科来说,如何能让模式识别更有说服力呢,如果没什么数据可以利用的话.
p.s.这个问题最近一直困扰我,没想到突然看见了这篇文章…
#26 by lcn on 十一月 12, 2012 - 8:01 上午
Quote
说还了还是让计算机做猜想代替人来猜想。知识发现的过程永远少不了猜想这一步,计算机的存在不过是把验证过程给规模化、自动化了。至于你说的模式识别,实际上还是人指定了猜想的目标。给一个图像,不告诉计算机这可能是个人脸还是个桌子,那么计算机最后知道它其实是个螃蟹的时间是无穷。
#27 by miniholder on 五月 28, 2015 - 2:03 下午
Quote
历史上的中医,似乎就是这类办法么?
只不过那是用人力进行归纳、类比。