论文部分内容阅读
在真核生物的基因预测中,基于功率谱分析的基因预测方法简单、易于实现以及不需要生物的先验知识,因此,学者们围绕着这类方法开展了大量的研究工作,一些改进方法在基因预测方面能够取得较好的效果。然而,这类方法需要设定阈值来区分蛋白编码区和非编码区,且预测精度严重受到阈值大小的影响。由于不同真核生物的基因结构之间存在差异,所以,对于某一特定的真核生物,仅仅依赖于有限的先验生物知识很难为其确定一个合适的基因预测阈值。显然,为所有生物选取统一的预测阈值更难以取得理想的预测结果。为了提高基于功率谱分析的基因预测方法的预测精度,本文首先通过比较分析和仿真实验,验证了Welch功率谱分析比周期图功率谱分析在基因预测上更具优势;接着,系统分析了阈值对真核生物基因预测精度的影响;最后,在Welch功率谱分析方法的基础上,结合靴带抽样算法,提出了一种推断基因预测阈值的新方法。新方法能够针对不同生物基因的结构特征,启发式地为其推断出一个最佳的预测阈值,并且只需要生物中少量的已标注蛋白编码区作为先验信息。实验结果表明,在本文使用的测试数据上,最佳阈值下的平均预测精度达到81%,与传统经验阈值P=4下的预测结果相比,预测精度提高了19%。同时,本文的方法复杂性低且易于实现,可以推广运用到其它需要设置阈值的预测方法中。