论文部分内容阅读
生物信息学是当今世界非常热门的课题,近年来,人们注重对生物信息的数据整合和应用开发,使得生物学家能方便的进行生物信息研究。在和所内专家交流后发现:首先,面对庞大繁杂的生物数据,生物学家通常需要对指定生物内容在多个生物信息数据源中检索查询和数据处理,而且不同领域的科学家会定制不同的生物数据源。其次,生物学家关注可视化检索与展示,这样能够直观的帮助生物学家进行生物研究。
本课题涉及到TB级的生物信息数据,这些生物信息数据需要保持与国际最新生物信息数据的同步更新。同时,本课题在对生物信息数据进行整合的基础上,针对生物学家对生物信息检索查询的不同要求,对生物信息检索功能进行了探索研究:(1)设计并实现了基于GridFTP和lftp下载的bio-mirror生物镜像的海量数据同步更新平台,保持对国际公开的40多个生物信息常用数据库的同步更新。同时实现了对生物信息数据的底层数据处理和整合,总数据量近5T。(2)实现了基于MRS的生物数据索引系统,成功索引数据库35个,索引数据近4亿条,数据量近1.8T。(3)实现了微生物基因组可视化生物信息检索平台,该平台支持生物信息序列的可视化检索查询、物种分类树的检索查询、多生物信息数据库定制检索查询、BLAST序列搜索等功能;(4)在生物信息检索平台开发的基础上开发了针对同类生物信息平台的数据接口规范,为实验室其他生物信息平台提供数据查询服务,包括微生物基因组生物信息检索平台生物信息传输接口,中国科学院微生物研究所生物数据库日志收割接口、中国科学院生物网格计算平台数据查询接口、中国微生物与病毒主题数据库MRS查询接口。
本课题通过对生物数据整合的研究和生物数据检索平台的实现,给生物信息学家对生物的研究提供良好的数据处理服务。同时,本课题实现了从后台到网页前端的一整套数据流处理框架,为后来实验室针对生物信息数据处理等相关研究,也提供了一定的参考意义。