深圳先进技术研究院开发出基因分析软件

乐橙真人游戏

2018-10-27

原标题:基因大数据,有了它可快速解读  一个人的全基因测序数据量有多大?答案是约300G。

  “一个人有46条染色体,全部读取存储下来约3G。 而在实际测序中通常需要复制50-100份,这样一来,一个人的数据量可达300G。

”近日在接受记者采访时,深圳先进技术研究院魏彦杰博士称。

  面对海量基因数据,传统电脑的分析工具已经远远无法满足高效分析的需求。

如何破题?魏彦杰博士团队与华大基因及美国阿贡国家实验室合作,借助超级计算机,开发了一套快速分析基因大数据的软件算法,并将数据结果用于探寻自闭症等复杂疾病的病因。   把剪碎的基因片段拼起来  近年来,随着基因测序技术的快速发展,全球范围内产生了海量的基因数据。

据悉,仅华大基因目前的基因数据总量就达到约50PB。 假设一部1080P高清电影约20G,那么华大基因的数据量大约相当于262万部高清电影。 如此庞大的规模,意味着不菲的分析费用。 魏彦杰团队研发的软件系统借助超级计算机,实现了快速基因组组装。

  什么是基因组组装?这要从第二代基因测序原理说起。

据魏彦杰介绍,在第二代基因测序中,46条染色体在实验过程中被剪成很小的基因片段。

  “正常的基因长度含几千甚至上万个碱基,而在测序中被剪成了约100个碱基的长度。 ”魏彦杰说,“就像给你一本剪碎的百科全书,拿到任何一个碎片都读不出它的全貌。

而第二代基因测序给出的就是这样一堆碎片,现在要用计算机的方法将它的每页每章节恢复出来。

”  据介绍,基于超级计算机Mira,魏彦杰团队研发的软件系统可在10分钟内处理4T的基因数据,数据量相当于204部高清电影。 作为开源系统,这一系统可以在所有超算上运行。

自2014年上线以来,下载量达600多次,已被阿贡国家实验室、俄亥俄州立大学等机构广泛使用。

(责编:夏凡、王星)。