导读:超大容量的基因表达数据的数据库即将对公众开放了,到时科研人员不用走进实验室也同样可以对疾病的发展趋势做出判断。这种对功能基因组学数据的发掘工作目前还是一个比较新的研究领域。像这种完全依靠别人的实验数据,自己不做任何实质意义上的实验就得到新发现的研究工作还比较少见。
DNA芯片技术的出现使得科学家们可以一次同时对大量基因的表达情况进行分析和研究。
海量基因数据库即将横空出世
拥有将近100万个基因表达数据的数据库很快就要对公众开放了,到时科研人员不用走进实验室也同样可以对疾病的发展趋势做出判断。
Purvesh Khatri正坐在一个超大的电脑显示屏前,在遗传数据的海洋中搜寻“珍宝”呢。他是一名博士后研究人员,他在基因表达公共数据库(Gene Expression Omnibus, GEO)中输入“乳腺癌”这个关键词进行查询一下子就可以得到1170个试验的结果,这些试验一共涉及到3.3万份样品,以及海量的基因表达数据,对这些数据进行分析就可能发现我们之前还不了解的乳腺癌基因表达模式。
Khatri的这一套并不是他的独创,他的老板,美国斯坦福大学医学院(Stanford School of Medicine in California)的生物信息学家Atul Butte就是用这种方法找到了一个新的糖尿病药物作用靶点。经过搜索之后,Butte最终将目标锁定在130个涉及小鼠、大鼠和人类的基因表达研究,然后他把这些研究的所有数据全都下载下来,仔细研究之后Butte从中挑出了在糖尿病患者(鼠)体内表达量最高的几个基因,其中之一就是CD44基因,该基因编码的CD44蛋白是一种白细胞表面蛋白,在60%的糖尿病相关研究中该基因的表达量都会有明显的上调(详见K. Kodama et al. Proc. Natl Acad. Sci. USA 109, 7049–7054; 2012)。之前CD44蛋白并没有被大家当作糖尿病药物作用靶点进行过研究,但是Butte课题组发现给肥胖的小鼠使用抗CD44蛋白的抗体可以使小鼠的血糖浓度降低。
Butte的研究团队正在使用公共数据库研究各种问题,比如Khatri关心的就是肾移植排斥反应机制。据Khatri介绍,他们从来不会到实验室里做那种真正的试验。那些试验都是用来验证科学假说的。而他们这种数据分析工作的吸引力在于他们可以对很多不同的试验数据进行综合分析,去伪存真,发现其中真正的规律。这个数据的世界要安全得多。
而且这种数据的增长速度正变得越来越快。从2002年起,很多科学杂志和刊物就开始要求科研人员将基因表达试验数据提交给GEO(该数据库由美国马里兰州贝塞斯达的美国国家生物技术信息中心维护)和英国伦敦的欧洲生物信息研究所(European Bioinformatics Institute, EBI)建立的ArrayExpress这样的公共数据库。在几个星期之内,全世界储存的基因表达数据将突破100万大观,详见下图。
这样做的结果就是构建了一个前所未有的庞大公共资源,极大地降低了科研成本,加快了我们对疾病的理解和认识。基因序列数据已经被公开了,但是基因表达数据要复杂得多,而且基因表达数据还可以告诉我们每一个基因的活化情况,是在肝脏细胞里表达还是在脑细胞里表达,是在患病组织中表达还是在健康组织中表达等。而且由于很多研究都不会只关注某一(几)个基因,所以科研人员可以对这些数据进行综合比较,得到很多原作者都没有的灵感。
了解数据库中有多少数据这很容易,可是了解这些数据的用途就比较困难了。Heather Piwowar是加拿大英属哥伦比亚大学加拿大国家进化合成中心(National Evolu-tionary Synthesis Center from the University of British Columbia in Vancouver, Canada)的一名科研人员,她主要研究数据的再利用问题。经过研究发现,截止到2010年底,在2005年存入GEO的数据和2007年存入GEO的数据中分别有20%和17%的数据被人引(使)用过。但是Piwowar认为这个数字要略低于实际引用率,因为她在这项研究工作中使用的PubMed数据库只列出了不到三分之一的引用情况,而且她采用的算法也只会在文章中表明了被引论文在数据库中的登记号才会视作引用情况,所以这都会漏掉一些真实的引用情况。现在每年都会有更多的研究开始引用(使用)数据库中的数据,所以Piwowar认为这种研究方式已经在改变着我们传统的研究模式了。
英国伦敦帝国理工学院(Imperial College London)的基因组学家Enrico Petretto也认为,能够通过公共数据库获得这些信息是非常有意义的。我们再也不需要用手头那点可怜的经费对多种组织和动物的基因表达情况进行比对研究了。不过Petretto也提醒说相信他人的数据很可能会存在风险。如果数据库给出了自相矛盾的结论,那有可能是因为原始数据就是自相矛盾的,也有可能是在分析步骤出了问题。“这也是为什么我们有时候不信任这些数据的原因。” Petretto解释说。
研究方式将彻底改变
据EBI的生物信息学家Alvis Brazma介绍,有一些科研人员对数据的发掘和利用已经达到了极致。Brazma指出,这种对功能基因组学数据的发掘工作目前还是一个比较新的研究领域。一般来说,科研人员下载基因表达数据的时候不会超过6个基因,而且他们几乎都只会拿这些数据和自己的实验结果做一下数据比对的工作。像这种完全依靠别人的实验数据,自己不做任何实质意义上的实验就得到新发现的研究工作还比较少见。
从这一点上来看Butte和Khatri就可谓是这个领域的开拓者了。美国纽约IBM Thomas J. Watson研究中心(IBM Thomas J. Watson Research Center in Yorktown Heights, New York)的计算生物学家Gustavo Stolovitzky也是这样一位科学家,他也是单纯依靠公共数据库当中的资源开发了一套算法,使用这种软件就能自动识别出与肺癌、慢性阻塞性肺病(chronic obstructive pulmonary disease, COPD)和银屑病(psoriasis)等多种疾病相关的基因信号。这套软件不仅能够分辨COPD和肺癌,而且还能够区分鳞状细胞癌(squamous-cell carcinoma)和腺癌(adenocarcinoma)。据Stolovitzky介绍,在现有的数据库中还有大量的数据可供我们这套软件进行分析,看看它还能不能预测(识别)出其它的疾病。
还有其它的一些工作也会让数据库中沉睡的数据资源重新大放异彩。比如在2009年,Array Express数据库的工作人员就利用他们自己数据库的资源建立了一个基因表达数据库(Gene Expression Atlas),科研人员无需下载任何数据就可以从中了解到某个基因在不同组织和物种中的表达情况以及在不同病理状态下的表达情况等信息。
据GEO的协调员Tanya Barrett介绍,Array Express数据库的工作人员还将根据数据的更新情况实时地对他们的这套系统进行调整。RNA信息是另外一种增长速度很快的信息,这些信息也逐渐在数据库中占据了一席之地,不过RNA数据有一个问题那就是数据规模太大,而且很难与传统的芯片数据相结合,不过相关的技术正在开发之中。影响数据再利用最大的障碍还是文化问题。据美国密歇根大学(University of Michigan)专门从事数据再利用问题的Ann Zimmerman介绍,很多科研人员都不得不使用各种格式不同、实验设计和实验材料也不同的实验研究得到的数据。Barrett认为多熟悉可以解决这个问题,只有大家见到更多的数据再利用案例,我们才会熟悉这种研究方式,这样才能促进这个领域不断发展,开发出更多的数据发掘技术。
共0条评论