论文部分内容阅读
生物信息学是以计算机为工具对生物信息进行储存、检索和分析的科学。序列比对是生物信息学中的一个基本问题,设计快速而有效的序列比对算法是生物信息学研究的一个重要内容。序列比对的一个基本方面是进行多序列比对,多序列比对是一个NP 完全问题。
在多序列比对中,构建指导树是一个非常重要的步骤,指导树拓扑结构的合理程度直接影响到多序列比对的准确率。因此,研究构建指导树近似最优算法有着重要意义。目前常用的构建指导树方法有三种,即距离法,最大简约法和最大似然法。针对距离法中的邻接法在指导树生成方面存在近似程度不高的问题,本论文运用寻找主结点的思想,设计了邻接法的改进方法,并应用到基于序列结构信息的多序列比对算法中。
已有的渐进比对算法一般是基于双序列比对来构建距离矩阵,而且需要人为设定参数,这种构建距离矩阵方法无法反映序列间的结构信息差异,因而难以客观、有效地反映序列间进化距离。针对以上问题,本论文提出了基于序列结构信息的多序列比对算法,此算法利用信息熵度量序列间进化距离。考虑到序列中相邻字符的相关性,该方法通过序列中相邻子序列分布来描述序列,并且可以从序列中提取有关组分以及结构等信息。同时,它具有计算简单、快速,且不需要人为设置参数等优点。以多序列比对基准数据库BAliBASE 提供的序列作为测试数据集,将该算法与ClustalW 等经典的多序列比对算法进行了比较研究。结果表明,该算法在不提高时间复杂度的基础上,有效地提高了多序列比对的准确率。