论文部分内容阅读
生物信息学已经成为整个生物学发展的重要组成部分,用数理和信息理论与技术去分析生物信息,开展生物信息学研究将极大地推动生命科学的进步。随着各种生物数据的快速增加,如何处理生物数据并从这些数据中获得有用的信息,已经成为模式识别和生物信息学研究中非常重要的研究课题之一,真核生物基因的位点识别是生物信息学研究的重要环节。研究基因位点的识别有助于基因组信息结构分析,基因识别及功能预测。利用统计分析、模式识别等方法对基因组进行信息结构分析和特征提取,可以为基因识别和功能研究提供依据。本文利用模式识别方法和计算机技术相结合,对真核生物基因特别是人类基因供体位点和受体位点序列特征及其位点识别问题进行了尝试性的研究,取得了如下主要研究成果:
(1)收集生物数据并对数据进行预处理。包括4个真实位点数据集和2个虚假位点数据集,对这些数据做了相应的统计分析,得到了一些对基因位点识别有用的统计特征。
(2)通过将位点附近5个碱基共同考虑,推广了短序列模式识别方法,并将推广的方法应用在供体位点识别上,很大程度上提高了判定虚假位点数据的能力,从而得到了供体位点较好的识别结果。应用在受体位点识别中,对提高受体位点的识别率同样起到了一定的作用。
(3)推广权重矩阵理论为概率回溯法,将权重矩阵和模拟退火相结合,对受体位点的识别率有较好结果。将推广的短序列模式、权重矩阵和模拟退火相结合,对供体位点进行识别,得到了较好的识别结果。
(4)将矩阵空间法应用在位点识别问题中。视序列为四维空间中的链,定义了链之间的距离,确定了链截取的长度。这是一种具有明显数学意义的方法。试验中用支持向量机处理矩阵空间法和局部特征法所提取的特征,对受体位点的识别取得了较好结果。