全局比对软件MUSCLE并行化研究与实现

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:fresco_xp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列比对是生物信息学中最基础的一种实验过程,这对于根据序列进行深入的生物学意义的研究,如保守区或者功能基序的判定与评价、遗传疾病的分析、系统发育分析和功能预测,具有十分重要的意义。MUSCLE软件作为序列比对软件中运行效率较高、处理规模较大的代表,被人们广泛使用。但是MUSCLE在处理较大规模的比对时同样面临着耗时多的缺点。   本文通过对MUSCLE软件的并行化研究主要做了以下两个方面的工作:   (1)通过对运行效率的分析,确定其最耗时部分为比对过程的第三步。而通过研究其算法,得知这部分可以被划分成相对独立的子序列间的并行比对。而不同子序列间的比对天然具有可并行的特点,而且便于用OpenMP实现数据级的并行加速。通过使用OpenMP实现这部分的加速,实测数据显示,一般能够达到40%~100%的加速比。   (2)对MUSCLE软件最耗时的核心比对算法——Needleman-Wunsch算法进行了详细深入的研究,并用CUDA技术在GPU上面实现了MUSCLE软件中的NWSmall算法函数。同时针对CUDA技术的特点进行了一系列的优化与改写措施,包含类到结构体的转换、AOS到SOA的转换、优化设计新的TB矩阵的存储方法等。后续的性能测试显示,对上万bp长度的两两基因组序列比对的加速效果比较明显,最多能够达到10倍的加速比。   总之,本文对MUSCLE软件的加速实现了模块化加速(OpenMP版本)和关键耗时函数加速(CUDA版本)两个类型的加速。这两个加速版本有不同的适用对象,前者普遍适用于蛋白质序列的比对,而后者适用于较长序列比对的加速。同时本文的并行优化的思想对于序列比对领域的并行化研究具有一般性参考价值。
其他文献
三维模拟演练系统为企业和应急部门提供了强大的服务,它使用三维平台来提供真实的场景环境,通过模拟重大危险源所发生的事故,来协调各部门之间合作关系并提高参演人员应急处
该文在分析现有驾驶模拟训练系统的基础上,指出训练系统的智能化与个性化以及系统教材的语义共享性是目前驾驶模拟系统急需解决的主要问题.为此,该文提出了一种基于本体的智
随着社会的发展、信息技术的广泛应用,楼宇智能化的概念应运而生。楼宇智能化是借助建筑技术、现代通信技术、计算机技术等,实现楼宇环境的实时监控,对楼宇内的设备进行智能控制
伴随着3G(The 3rd Generation)时代的来临,各种网络技术不断融合,综合智能网技术可以实现PSTN(Public Switched Telephone Network), GSM(Global System for Mobile Communic
用平均场理论研究三子格Ising模型的磁性质,给出自发磁化时,磁矩随温度的变化关系.
Radio frequency is a valuable resource for wireless communication systems. The high-frequency band from 6 GHz up to 100 GHz, where continuous and broad spectra
使用隐类模型进行聚类分析是一种很重要的方法,它使用隐变量来表示已知的显变量之间的关系,能有效地处理可测数据之间的隐含信息,有很大的实用性目前有许多关于含有隐变量的
该文提出一种具有良好分布性能和可扩展性的基于网络的入侵检测系统,它由网络探测器、控制台、分析系统、响应系统和存储系统五大部分构成,各部分在控制台的协调下有机地结合
路由器在稳定网络中能够提供可靠的数据转发服务,在特定网络环境下保持性能最优。而在动态变化的网络环境中,路由器提供的路由和队列调度策略则不具备根据网络环境变化而自动
红外告警图像处理系统在交付用户使用之前,必须完成对红外告警设备的检测,而对设备的检测需要外部红外威胁环境的紧密配合。如通过现场试验来构建威胁环境,不仅成本很大,且不可能