07 March 2014

不知不觉进入了大数据时代,连纽约时报都说“数据分析师将是这个世纪最性感的职业”。IT界常引用的一句话说“单单过去两年产生的数据,就占到这个世界数据总产量的90%”,就此,你可以想象,这个数据爆炸的猛。

为了玉米大会上的报告,稍微读了一下NCBI SRA的report。不看不知道,一看吓一跳,危机感立马爆棚。在过去几年,NGS技术单单在玉米基因组领域,就生产了13,000 Giga 碱基对的数据。玉米基因组大约2000 Mb,简单来算的话,在B73物理图谱完成的短短五年时间里,基因组数据产量居然已经达到了6,000多倍的覆盖率。这还不包括正在测的,和各种藏着掖着没发布的数据。把视野扩展一下,看看整个数据库,玉米数据,不过占到SRA数据库聊聊的0.1%不到。截止于2014二月底,>2300 Tera的碱基对上传到了这个数据库。看下面的图,“>90%的数据生产于这两年”的规律也完全适用于测序产业。

alt text

于是乎,NGS数据的存储,发布和分享,成了世界性的课题。现在,150多个科研组织和企业,成立了全球基因组与健康联盟 (Global Alliance for Genomics and Health),用于讨论数据共享的行为准则。其中最受瞩目的,是Google Genomics的加入。看来遗传组学,不再是遗传学者的玩具了,IT业者也要进来参一脚了。当然,这样说其实也太把自己当回事了,实际上,这是医学和人类生物学者的玩具,人家是不屑于带我们这些小众科研群体玩的。不知道在这个过程中,中国的IT业者们有没有先知先觉,尤其是那些做云端的公司们。不要总是等人家瓜熟蒂落了再紧跟着山寨。先人一步,也许就成了规则的领导者。当然,加入联盟也好,科学无国界嘛。战略层面的咱暂且不表,对我辈矮穷挫的生物男来说,利好消息是,一不小心,也可能挨着高大上的IT男工作了,岂不快哉。

闲话不说,下面解读一下玉米基因测序背后的故事。看数据,比读文章有意思多了。下表,列了按数据产量排名的10大projects。


Top 10 projects (按产量排名。个人整理,有错轻拍全表下载

Order Center Size (Gb) Summary
1 CAAS 2426 transcriptome
2 MSU-BUELL 1247 Pan Transcriptome
3 CAU 1224 Genome Re-sequencing
4 CSHL 964 Maize HapMap II
5 Academia Sinica 626 Transcriptome of maize embryonic leaves
6 University of Minnesota 619 Transcriptome of IBM RILs
7 CSHL 572 Methylome
8 ISU 512 Zeanome
9 Cornell University 493 Breeding efforts in Africa
10 MSU-BUELL 450 Gene Expression of vitamin biosynthesis

玉米的测序格局,也许正是传统玉米研究的分水岭,新的科研格局可能正在经历重新洗牌。可喜的是,中国的团队在这个领域,不但占有了一席之地。而且,可能是两席或多席。CAAS和CAU,包括华中农大,测起序来毫不手软。竞争合作,多有南北鼎足之势。当然也看到北大,山东农大,四川农大的参与。当这样的团队数达到几十个的时候,玉米遗传学研究就真正到了中美G2的时代了。

alt text

上面这个图,是玉米基因组测序的几个里程碑式进展。随着这些进展,总体数据量正在一个台阶一个台阶的跃进。在这个测序大战中,MSU异军突起,有要扛起代谢组大旗的意思。UM和CSHL的甲基化组,ISU的Zeanome和PAV,UC Davis的进化,各有特长,各有侧重。Cornell的GBS,接近于要测地球上所有的玉米物种。JGI看不太懂,有点钱多人傻的意思。

测是测,分析才是关键。大数据分析,不是请客吃饭。理论啊,算法啊,时时都在经历革新。那些实验经验丰富,但是没有阅读和把握数据,尤其是Raw数据的教授们,将会在竞争中处于不利地位。对分析人员来说,借鉴不同的知识体系,如统计的各种检验,计算科学的Machine Learning,甚至并行运算的Hadoop,再加上美观的可视化,才是制胜的关键。遗传学教育,也在经历变革,以后的学生,不但按得一手好枪头,还得写的一手好程序。以后,如果你每天不在github上推几行PythonR或者Perl的程序,都不好意思在社交网络上跟人家打招呼。呵呵。

大数据时代,你准备好了吗?



blog comments powered by Disqus