论文部分内容阅读
伴随着科技的进步,质谱仪的发明,大量有价值的化学信息数据被搜集,这些数据的获得促进了化学结构解析技术的进步,怎样从这些数据集中挖掘出我们想要的信息,正在逐渐被人们重视。数据挖掘技术的成熟为人们指引了方向,而这里我们关注的是典型的分类问题。在化学数据中的样本分类就是试图从数据中提取有用的信息,然后根据他们的分子结构或者化学指纹来对化合物或者药物进行分类,依据质谱数据鉴别化合物和识别化合物结构一直以来都是化学计量中的一项重要的工作。在这篇文章中,我们首先介绍了原始质谱数据的特征表示。由于原始数据维数过大,容易过拟合且计算复杂度高,我们接着对数据做了处理。最终,我们呈现了一些在化合物质谱数据的基础上,基于度量学习的算法来计算其K-近邻分类误差,例如近邻元分分析(Neighborhood Component Analysis, NCA),大边界最近邻算法(Large Margin Nearest Neighbor Classifier, LMNN),相关元分析(Relevant Component Analysis, RCA),信息理论度量学习(Information-Theoretic Metric Learning, ITML),最大限度衰竭度量学习(Maximally Collapsing Metric Learning, MCML)和判别分量分析算法(Discriminative Component Analysis, DCA),以及非监督距离度量学习算法,例如主元分析(Principal Component Analysis, PCA),多维标度算法Multidimensional Scaling, MDS)以及非线性映射算法,如等距映射算法(Isometric Mapping, ISOMAP)。所有这些算法都被用于基于质谱数据的化合物子结构有无的预测,实验表明针对质谱数据的特征处理,度量学习算法可以取得一个较好的效果,后面我们为了继续验证实验结论,又将度量学习作为一种降维方法和其他经典降维算法,如主元分析、流行学习等作了比较,结果也显示确实取得较好的效果,也就是即降低了时间复杂度,同时样本的可分性得到了增强。