论文部分内容阅读
了解一种蛋白质所位于的亚细胞位置是了解其生物学功能的一个重要的步骤。高尔基体作为真核细胞中常见的细胞器和一些重要的疾病有着紧密的联系,比如:奥兹海默症以及帕金森症。了解了高尔基体蛋白的功能将会对治愈这两种疾病有着重要的意义。在本篇论文中,我们对于高尔基体蛋白定位预测进行了系统的分析。首先,我们提出了一种方法,用于确定一种蛋白质是否为植物细胞中的Golgi-resident蛋白。这种方法使用了创新形式的Chou提出的伪氨基酸序列构成方法,并融合了跨膜域信息以及多种不同的氨基酸物化特性。基于使用支持向量机分类方法,我们的方法在5折交叉验证实验中,取得了超过90%的预测效果,优于目前存在的同类方法。确定了一个蛋白质是不是Golgi-resident蛋白是远远不够的,需要进一步确定其具体类型。了解Golgi-resident蛋白的类型对于理解其生物学意义上的分子功能起着关键的作用。Golgi-resident蛋白主要分为两大类:cis-Golgi蛋白以及trans-Golgi蛋白。不同类型的Golgi-resident蛋白起着不同的作用。因此,我们在此基础上提出了一种基于支持向量机算法的分类器,并结合了蛋白质的位置特异性物化特性以及基于互信息理论的特征选择算法。在留一交叉验证实验中,我们的方法仅仅使用了49维特征便取得了91.24%的预测准确率。为了检验我们的性能,同时避免过拟合现象的发生,我们还与其他现存方法进行了全面的比较。得到的结果显示,我们的方法优于目前就我们所知的全部同类算法,且具有最少的特征数量。此外,我们还对不同的特征选择算法在此类问题上的应用表现进行了分析。实验结果表明,我们提出的方法对于高尔基体蛋白的位置预测十分有效而且具有预测多种蛋白质属性的潜力。在本篇论文中,我们旨在全面系统地对高尔基体蛋白质进行分析。算法的两个步骤为:首先确定一种蛋白质是否为Golgi-resident蛋白,进而判断Golgi-resident蛋白的具体类型,是停留在cis-Golgi网络或是trans-Golgi网络中。实验结果证明,我们的方法是目前同类别算法中表现最好的,并且特征向量维度最少。