若干生物信息数据并行处理研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:TTjj09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物信息领域,基于多种相互作用检测方法,产生了大规模蛋白质相互作用数据;随着下一代测序技术的快速发展,产生了大量的DNA序列数据;由于蛋白质定量精度的提高,现代质谱仪器产生了大量质谱数据,如何有效利用互作数据以理解蛋白质的生物学功能,如何对DNA序列数据进行快速、高效的压缩存储,如何提升非标记定量软件的性能,是重要的问题。  本文主要基于以蛋白质相互作用,DNA序列,质谱数据为代表的生物信息学数据,研究相关并行算法。具体贡献如下:  1、使用MCL算法对已知的4个酵母蛋白质相互作用网络进行聚类,基于聚类结果,利用PValue算法和Majority算法对未知蛋白质功能进行预测,结果表明,预测了新的未知蛋白质功能,更进一步,基于OpenMP,我们对PValue算法进行并行化,结果表明,取得了2倍的加速比。  2、非流水线模型并行DSRC算法。有多种软件用于压缩/解压缩FASTQ格式的数据。其中,DSRC算法有较优的压缩率和压缩速度。因此,希望通过对DSRC算法并行化,以更快压缩FASTQ格式的数据。DSRC算法的所有压缩指令都在Process函数中执行(Process函数执行时间占全部指令执行时间的71%)。并行算法的思路是开启多个线程,读取一定的数据,多线程同时执行Process函数,以实现压缩指令的并行执行。结果表明,使用单线程,2线程,4线程,Process函数几乎有线性加速比。当线程数增加到8或者10时,相对于4线程,性能下降。  3、基于流水线模型并行DSRC算法。经分析,DSRC算法的串行压缩/解压缩部分,压缩/解压缩操作由三种操作完成:从文件读取原始数据,压缩/解压缩数据,写结果数据至文件。基于这三种操作,提出一种运行于多核平台的多线程DSRC算法。在并行算法中,一个读线程和一个写线程分别处理输入/输出文件。同时,有多个工作线程压缩/解压缩数据。输入/输出队列用于不同线程间的缓冲区。基于上述单流水线,将算法扩展为多流水线算法,以更好发挥多核平台NUMA架构的优点。测试结果表明,相比串行DSRC算法,并行DSRC压缩部分取得24.71倍加速,解压缩部分取得22.00倍加速。  4、测试基于MPI和CUDA优化蛋白质非标记定量算法,结果表明,单GPU上运行的加速比为8.1。16个GPU对单GPU的加速比为14.18,并行效率为89%。
其他文献
在今天的互联网上进行大规模的数据分发是一个常见的应用,传统的C/S架构对于这种应用来说,成本高昂,可扩展性差。近年来,出现了基于P2P的分发技术,它允许接受服务的客户端也共享它
数据挖掘技术经过多年的发展,已经逐渐建立起系统的挖掘理论和成熟的挖掘技术。形成了以关联规则挖掘、分类规则挖掘、聚类规则挖掘为主要形式的,以数据库技术、统计学、人工智
随着国内电信运营竞争格局的形成和中国加入WTO,电信运营商需要更快、更好地满足市场需求,进一步提高经营和管理效率,降低企业运营成本,以获取更大的企业效益,这对电信企业的运营
WebGIS是Web技术和GIS技术相结合的产物,它在地理信息系统平台基础上嵌入HTTP和TCP/IP协议,实现互联网环境下的GIS服务共享功能。WebGIS因为其本身表现方式的优雅、多样性、便
随着个人电脑的使用普及,越来越多的单位和家庭都拥有了不同数量的电脑设备和其他的产品。在日常的工作和生活中,大部分的个人电脑只是处理一般的文档操作和低强度的事务处理。
人脸识别技术就是利用计算机分析人脸图像,提取有效的特征信息来辨认身份或者判别待定状态的一门技术。它涉及模式识别、图像处理、计算机视觉等诸多学科的知识,是当前研究的热
多通道交互是人机交互领域的重要研究方向,综合利用多个通道的信息能够提供更加自然、高效的交互体验。当前的触觉技术发展和可穿戴界面的交互特征给多通道交互的研究和应用设
本文主要研究了对园林数据的存储组织、查询管理和统计分析。利用地理信息系统(GIS)技术、数据库技术设计开发出园林信息管理模型,实现对公园绿地、附属绿地、行道树、古树名
随着越来越多的成功软件系统成为了遗产系统(legacy system),软件演化的重要性和普及性越来越强。软件演化已成为软件生存周期中最重要的形态之一,进入了软件的各个领域,成为了
随着Internet的迅速发展,各种信息以指数级的速度增长,类型也越来越多。如何有效地解决信息过载和信息迷失带来的种种问题,如何满足各种用户不同的个性化需求等,是研究人员面临的