论文部分内容阅读
在生物信息领域,基于多种相互作用检测方法,产生了大规模蛋白质相互作用数据;随着下一代测序技术的快速发展,产生了大量的DNA序列数据;由于蛋白质定量精度的提高,现代质谱仪器产生了大量质谱数据,如何有效利用互作数据以理解蛋白质的生物学功能,如何对DNA序列数据进行快速、高效的压缩存储,如何提升非标记定量软件的性能,是重要的问题。 本文主要基于以蛋白质相互作用,DNA序列,质谱数据为代表的生物信息学数据,研究相关并行算法。具体贡献如下: 1、使用MCL算法对已知的4个酵母蛋白质相互作用网络进行聚类,基于聚类结果,利用PValue算法和Majority算法对未知蛋白质功能进行预测,结果表明,预测了新的未知蛋白质功能,更进一步,基于OpenMP,我们对PValue算法进行并行化,结果表明,取得了2倍的加速比。 2、非流水线模型并行DSRC算法。有多种软件用于压缩/解压缩FASTQ格式的数据。其中,DSRC算法有较优的压缩率和压缩速度。因此,希望通过对DSRC算法并行化,以更快压缩FASTQ格式的数据。DSRC算法的所有压缩指令都在Process函数中执行(Process函数执行时间占全部指令执行时间的71%)。并行算法的思路是开启多个线程,读取一定的数据,多线程同时执行Process函数,以实现压缩指令的并行执行。结果表明,使用单线程,2线程,4线程,Process函数几乎有线性加速比。当线程数增加到8或者10时,相对于4线程,性能下降。 3、基于流水线模型并行DSRC算法。经分析,DSRC算法的串行压缩/解压缩部分,压缩/解压缩操作由三种操作完成:从文件读取原始数据,压缩/解压缩数据,写结果数据至文件。基于这三种操作,提出一种运行于多核平台的多线程DSRC算法。在并行算法中,一个读线程和一个写线程分别处理输入/输出文件。同时,有多个工作线程压缩/解压缩数据。输入/输出队列用于不同线程间的缓冲区。基于上述单流水线,将算法扩展为多流水线算法,以更好发挥多核平台NUMA架构的优点。测试结果表明,相比串行DSRC算法,并行DSRC压缩部分取得24.71倍加速,解压缩部分取得22.00倍加速。 4、测试基于MPI和CUDA优化蛋白质非标记定量算法,结果表明,单GPU上运行的加速比为8.1。16个GPU对单GPU的加速比为14.18,并行效率为89%。