论文部分内容阅读
随着生物信息学的发展和基因组数据的飞速积累,生命科学已步入后基因组时代,基因功能的研究逐渐成为重点。分形是非线性领域的一门分支学科,关于脱氧核糖核酸(DNA)序列分形特征的研究,可以揭示生物在进化过程中隐藏在DNA序列中的某些秘密。1990年Jeffrey提出了基因组序列的与尺度无关的混沌游戏表示法,这是基于迭代函数系统的一种方法,它将DNA序列中一定长度字的分布规律表现为图形的分形特征,进而通过分形分析就可获取序列的分布规律,从而也成为DNA序列分析的一种统计方法。本文从DNA序列的混沌游戏图形表示法出发,结合分形理论,对DNA序列的分形特征进行了较为全面的研究。主要结论如下:首先,由CGR图形的频数矩阵,对n-长子序列的频数分布进行了分析,指出长度大致相同的序列,其出现频数为1的n-长子序列个数随n的变化模式相当一致;并探讨了DNA序列结构,指出n-长子序列的最高出现频数与n值之间的关系以及出现频数为1的不同子序列的个数与n值之间的关系在不同物种中存在一致性。其次,讨论了DNA序列CGR图形的迭代函数系统,比较了不同序列在不同收缩系数时的情况,得到了结论:收缩系数较大( k = 0.999)时,相似的序列会收缩为很小的一个相似图形,而随机选取的序列收缩后的小图形则差异较大。随后,基于CGR图形对DNA序列进行了R/S分析,证实了DNA序列中存在长程相关性。然后,提出了一种计算DNA序列CGR图形的分形信息维数的方法,对序列的编码区和非编码区的实验结果表明,对同一物种的编码区序列的信息维数比非编码区序列的高。接着,以绝对差作为度量标准提出了一种计算DNA序列相似性的方法,选取了不同特征的3组序列进行了比较,得到结论:不同物种的相同组织的基因组序列、同一基因组的不同片段序列均具有较高的相似性。最后,研究了DNA序列CGR图形的多重分形的计算过程,讨论了权重因子及满足标度不变性的范围选择等问题,得到结论:对CGR图形进行多重分形时权重因子可以选择为-15≤q≤50;计算了不同序列的多重分形谱和广义维数,比较了不同序列不同尺度的多重分形谱和广义维数,发现多重分形谱和广义维数能够表现DNA序列CGR图形的不同层次的分形特征,能够区分更复杂的序列结构。