论文部分内容阅读
代谢组学是继基因组学、转录组学和蛋白质组学发展起来的一门新的组学技术,是系统生物学的重要分支之一。随着系统生物学和生物信息学发展,代谢组学凭借自身的独特优势,在揭示复杂疾病的发病机制、生物标志物的识别以及药物开发等方面发挥重要作用。由于高通量组学技术和化学分析技术的快速发展,积累了海量的生物组学数据,代谢组学也不例外。如何从海量的组学数据中挖掘有价值的信息变得极为关键。目前,已有大量的生物信息学工具开发用于代谢组数据分析处理。虽然如此,代谢组学数据,特别是基于LC-MS的代谢组学,由于其高维度、高噪声、稀疏性等特性使得代谢组学的数据分析仍然变得相对困难。在整个代谢组数据分析流程中,数据的预处理步骤对后续的分析起到显著的影响,而数据标准化是数据预处理步骤的重中之重。如何从多种数据标准化方法中选择适合数据本身的方法是代谢组学数据分析中亟待解决的一个问题。本文的研究内容包括以下三个部分:首先,对常用的代谢组数据存储库MetaboLights进行综合的调研。针对不同的代谢组分析平台以及不同样本量所采用的数据标准化方法的进行文献调研,调研结果发现,Log transformation、Auto scaling、Pareto scaling、the total sum normalization以及PQN normalization等方法在基于不同的代谢组分析平台和不同样本量大小的代谢组数据中均被广泛使用。同时,也包含将多种标准化方法进行组合对数据进行标准化,如Auto scaling与the total sum normalization、Mean分别进行组合。在实际的数据分析中,通常使用多种标准化方法对数据进行预处理,使得后续的分析更加可靠。其次,基于降低组内变异的能力对目前常用的20种LC-MS的代谢组数据标准化方法进行评估。根据在28组样本量大小不同的独立数据集中降低组内变异的程度对标准化方法进行聚类分析,发现MSTUS和Log transformation方法在我们选取的这些数据集中大部分数据中表现优秀;当样本量适中时,除了MSTUS和Log transformation之外,VSN、Level scaling、Power transformation以及Range scaling方法可能作为备选的方法;当样本较小时,根据计算的结果发现可能Loess、Contrast方法比较好;而Li-Wong、Vast scaling以及SUM方法在我们选取的数据集中不能有效降低组内变异,选用这几种方法时可能需要慎重考虑。最后,通过4组疾病样本的非靶向代谢组数据,从降低组内变异以及识别的差异代谢特征的分类性能两方面对标准化方法进行综合的比较分析。根据研究结果,我们可以推测可能EigenMS、MSTUS、VSN、Cubic、PQN、Median、Log transformation等可以作为比较好的标准化方法用于不同样本量的数据进行标准化。而Sum、Contrast以及VAST方法在选取的时候可能需要慎重考虑。综上所述,本文从代谢组数据预处理步骤中的标准化环节的出发,通过组内变异和分类器性能对标准化方法进行综合评估,为研究者选择最适的标准化方法的提供参考和指导。