论文部分内容阅读
随着人类基因组测序的完成,对蛋白质结构和功能的研究成为基因组学研究的一大热点。研究证明,蛋白质在其功能组中很少以单个个体而存在,一般与功能相似的蛋白质之间存在相互作用。因此,我们可以通过对蛋白质相互作用(Protein-Protein interaction,PPI)网络的研究来预测其功能。本文将在基于PPI网络的聚类及稀疏点检测算法两方面进行研究:提出一种蛋白质功能预测算法——基于算术平均最小值(the Arithmetic Ave- rage Minimum Value, AAMV)的K-means聚类算法。首先,根据蛋白质之间的相互作用,通过人类AD(Alzheimer’s Disease)相关PPI网络图,得出蛋白质之间的关联矩阵;然后,利用AAMV法求得相似度矩阵;接着,鉴于误差平方和准则不能较好的对聚类进行收敛,提出了加权的误差平方和准则;最后,在相似度矩阵的基础上,利用加权的误差平方和准则进行有效收敛,利用K-means聚类方法对PPI网络中的蛋白质进行聚类与功能预测。提出PPI网络中的稀疏点检测算法——基于加权的相似系数和算法。首先,根据蛋白质之间的相互作用,通过人类AD(Alzheimer’s Disease)相关PPI网络图,得出蛋白质之间的关联矩阵;然后,利用最大最小值法求得相似系数矩阵;接着,由于相似系数和不能对PPI网络中的稀疏点进行更好的检测,因此,在相似系数的基础上提出加权的相似系数和方法。最后,根据输入的阈值,利用相似系数和算法得出PPI网络中的稀疏蛋白质。基于人类AD相关PPI网络图,利用基于AAMV的K-means算法对图中蛋白质进行聚类,其结果与Maryland Bridge法和Korbel法所得结果非常相似;利用聚类结果,对四个孤立蛋白质的功能进行预测。同时,利用加权的相似系数和算法对图中的稀疏蛋白质进行检测,实验结果表明:输入的阈值取值在0.01-0.16之间时,其精确度比较高。