论文部分内容阅读
随着人类基因组计划的完成,大量的动植物模式生物基因组序列已被测序。然而,从基因组序列的大量原始数据中发现基因仍然是一个有挑战性的问题。基因识别已成为生物信息学研究的重要问题之一。其中,剪接位点的识别是所有基因结构识别算法中的关键一步。基于马尔可夫模型与支持向量机,本文提出MM-SVM、马氏串核函数和HMM-SVM3种剪接位点识别算法,也研究了RNA二级结构特征对提高识别率的有效性。本文主要包含以下内容:
1)对基因序列用马氏过程建模,用SVM学习马氏过程的参数,提出新的基因信号识别算法MM-SVM,该方法能快速准确地识别出基因中的剪接位点等重要信号的位置。
2)提出一类从马氏过程得到的串核函数。实验证实,该类核函数对供体位点的识别率优于已有的其它方法。
3)对基因序列用隐马氏模型建模,用SVM代替传统的贝叶斯决策,提出HMM-SVM方法来识别剪接位点,该方法优于单纯的HMM识别算法。
4)基于RNA序列统计特征,结合二级结构特征识别剪接位点。并从信息论的角度,论证了二级结构特征对基因信号识别的有效性。