论文部分内容阅读
近年来,高通量技术的应用带来了蛋白质数据成指数的增长。在这些海量多样的蛋白质数据中,蕴藏着大量有创新性的生物新规律和新概念。随着人类基因组计划(HGP)的顺利完成,研究这些成指数增长且高噪声的海量蛋白质数据需要高速、准确、可拓展的理论及其算法。因此,推动了一门新兴学科—生物信息学的诞生和发展,蛋白质结构和功能的研究是生物信息学领域的前沿课题,也是后基因组时代的核心问题之一。本文基于蛋白质结构和功能的预测研究现状,采用支持向量机等多种分类器,并结合不同的特征提取算法,对蛋白质结构和功能进行分类预测研究,主要工作概括如下:(1)提出了预测蛋白质同源寡聚体的新模型—小波支持向量机模型。本文通过离散小波变换有效地提取了蛋白质序列的特征信息,并采用了不同分类算法对同源寡聚体类型进行分类预测。通过留一法检验表明,小波支持向量机模型能更好地分类预测同源寡聚体的类型,同时预测结果比文献报道的结果有明显地提高;在此基础上,进一步深入研究了数据集的大小对预测准确率的影响。结果表明在数据集平衡的情况下,随着数据集的减小,jackknife运算机制受到影响,而导致预测准确率降低,这与文献报道一致。(2)建立了同源寡聚体和异源寡聚体的分类预测新模型。该模型将离散小波和氨基酸的物理化学性质相结合,利用离散小波变换近似系数和细节系数,将同源寡聚体和异源寡聚体的序列分解为多层次的小波系数,即将一维序列分解为同时具有时-频特性的二维序列,并从其中提取有效的特征向量信息。最后通过不同的分类算法对蛋白质序列进行分类预测研究。同时对Chou构建的高序列一致性蛋白质数据库和Xiao构建的低序列一致性蛋白质数据库进行了分类预测研究,发现该模型不仅能够提高预测准确率,而且能有效地克服低序列一致性数据库预测准确率较低的问题。(3)建立了蛋白质四级结构及亚结构的预测新模型。从氨基酸的疏水性和极性出发,基于离散小波变换和决策树算法,构建了预测蛋白质四级结构及亚结构的新模型DWT_DT。本文重点研究了氨基酸疏水性和极性对预测结果的影响,经分析表明疏水性对蛋白质结构的预测准确率有重要的影响。同时,深入挖掘算法产生过拟合的原因,并通过ROC曲线和PR曲线的评价,阐明了我们所构建的模型能够有效克服过拟合。基于上述研究结果,我们构建了网络在线预测平台,通过Internet向所有使用者提供开放式服务。(4)建立了蛋白质棕榈化修饰位点的预测新模型—WSM-Plam模型。该模型融合权重氨基酸成分、自相关函数和溶剂可及表面面积等多种特征提取方法表达棕榈化位点样本特征向量信息,并通过不同的分类算法对其进行分类预测。实验结果表明,融合的特征提取方法比单一的方法能够包含更多的有效特征向量,从而更准确的对位点进行识别分类。此外,该模型计算简单、分类精度高,且具有较强的自适应、泛化和推广应用能力。最后,我们构建了棕榈化位点的在线预测平台(http://bioinfo.ncu.edu.cn/services-ptm.aspx)。上述各种算法都已编写了处理程序并实现网络在线预测,可以极为方便地使用并处理数据。本论文获得了国家自然科学基金、江西省自然科学基金和国家重点实验室基金的资助。