论文部分内容阅读
随着人类基因组计划的完成,以及各种生物基因序列的研究,人们已经获得了大量的基因组序列。在这些序列中含有丰富的信息,隐藏着复杂的生物学知识。如何从已经产生的海量数据中最大限度的挖掘有价值的信息成为科学家们面临的挑战和机遇。DNA序列的特征提取对于解读人类基因组所隐藏的结构和功能具有非常重要的意义。基于序列统计特征是指运用数学和信息科学理论的方法,从错综复杂的基因组序列中,提取一些体现其本质的具有代表性的特征。本文将提出两种不同的基于统计特征的序列提取方法。两种方法都是不需要序列比对,而且比传统的方法包含更多的信息,时间复杂度也很低。一种新的基于统计特征法添加了6个碱基之间的相关因子与传统的4维核苷酸组成相结合代表一条DNA序列,这比传统的4维核苷酸组成包含更多的序列影响信息。而且为了计算简单,我们使用了对序列进行分段处理,这样减少了时间复杂度,分段值M是任意取值的,不会影响计算结果。另一种新的基于统计特征法是在信息理论基础上提出来的。利用了信息理论中的信息熵和互信息理论,把单个碱基的概率和二联核苷酸的概率作为事件概率,利用信息理论的互信息熵求出四个碱基之间的16个互信息,因此一条DNA序列特征可以用这16个互信息熵表示。这种方法结合信息理论的思想得到了更多的序列影响信息,计算量也很少。基于统计特征法应用广泛。通常用于区分基因的不同功能区域,进行序列比较分析,系统进化分析和基因分类等。本文提出的两种方法主要应用于系统进化分析中,在利用这两种新方法提取出来的特征基础上,对物种进行相似性分析,然后利用基于距离法构建进化树,采用PHYLIP软件中的Neighbor.exe程序来评估进化树的构建,通过做实验来验证这两种方法的应用性。