论文部分内容阅读
化合物识别主要通过质谱库相似性搜索实现的。近年来,随着质谱库中可用质谱数据的迅速增加,这就需要一个高识别率,高速搜索的库搜索算法。本文中我们将七种相似性度量结合在一起并利用它们的识别差异性来提高识别率,即多元组合相似性度量算法(Multiple Similarity Measures,MUL_SM)。七种相似性度量:绝对距离度量(Absolute Value Difference,ABS VD)、欧几里得距离度量(Euclidean distance,Euclidean)、余弦相关系数度量(Cosine Correlation,Cosine)、相关系数度量(Correlation)和Stein和Scott提出的复合相似性度量(以下简称SS)、以及基于离散傅里叶变换和小波变换的复合相似性度量(Discrete Fourierand wavelet transform composite similarity measure,DFTR和DWTD)并利用粒子群优化算法(Particle Swarm Optimization,PSO)来设定这七种不同相似性度量在MUL SM中所占的权重值。同时,为了减少库搜索计算时间,从七种相似性度量中选择一种度量作为“滤波器”(构建子搜索主库)。根据库搜索计算时间、识别率和分子结构相似性解释能力三种性能,最终选定ABS VD作为原始搜索主库的“滤波器”。 传统质谱库搜索的数据基本上是原始的气相色谱-质谱联用(GasChromatography Coupled to Mass Spectrometry,GC-MS)数据,样本量多且数据的维数较高,从而导致库搜索速度较为缓慢。所以本文中提出了一种基于随机映射位置敏感哈希(Location Sensitive Hash,LSH)的库搜索算法实现了高速、高效的库搜索算法。 本文主要研究内容如下: 1、针对传统单一相似度量算法低识别率的问题,提出了MUL_SM。本算法主要内容如下:识别差异性的可视化和粒子群优化算法选择权值。实验表明MUL-SM相较于七种单一相似性度量算法具有更高的识别性能。 2、基于随机映射LSH的库搜索算法主要包括两个部分:一部分是原始GC-MS数据映射为二进制数据,另一部分是基于二进制数据的库搜索。实验结果表明本算法相较于传统的质谱库搜索算法,它在搜索速度上有着明显的优势。