论文部分内容阅读
高通量技术的发展为人们提供了来自于不同数据源的丰富信息。研究人员可以利用这些多组学数据,对大多数基因组中的未知功能的基因进行功能预测。然而,如何将高通量的多组学数据合理的整合起来以及采用何种预测策略更适宜,一直是从事该领域研究的科研人员不断面临的挑战。 本文基于朴素贝叶斯模型,整合了基因表达数据、蛋白质互作数据和基因表型数据,构建了相应的功能关联网络(其中的节点是基因,边的权重是基因功能相似性)并进行了基因功能预测。 为了验证该方法的性能,本文将其与前人提出的整合两种数据方法和单独使用某一种数据进行基因功能预测的结果分别进行了比较。结果表明,本文提出的基于贝叶斯整合网络预测基因功能的方法具有更好的性能(F值)和阳性预测数量。进一步,本文通过精确预测和广义预测两种检验方法对所提出的方法进行检测并与上述已有方法进行了比较。结果显示,通过贝叶斯整合网络得到的正确预测数量最多,效果最佳。最后,本文将该算法应用到衰老和胶质瘤相关基因集合上,并对预测结果进行了相关生物学分析,发现预测出的功能与对应的疾病紧密相关;SBDS与核糖体RNA加工具有密切联系;AFF1在白血病进程中发挥了重要作用。结果表明,本文提出的基因功能预测算法不仅能做出与生物学知识相一致的预测,还可以整合不同类型的数据,预测出只使用单一数据集所不能识别的功能注释。