论文部分内容阅读
Lnc RNA是一类长度超过200个核苷酸并且无法指导蛋白质合成的转录RNA分子,它在基因调控网络中是关键组件之一,也在许多生物过程中发挥着核心作用,还与一些复杂疑难疾病有关联,然而大多数lnc RNA的具体功能当前对研究者来说还是模糊的。Lnc RNA在发挥其生物功能时往往会伴有与其它生物大分子的相互作用,最近有一些研究发现lnc RNA可以充当诱饵或海绵来调节mi RNA的行为,同时mi RNA在lnc RNA的分子机制中也时常出现,因此积极探索lnc RNAmi RNA相互作用可以大大提高对lnc RNA功能的理解。传统的湿实验室方法可以标记出一个lnc RNA-mi RNA对是否有相互作用,但它们不仅耗时费力而且成本高,这使得研究进展缓慢。伴随着相关数据累积的越来越多,机器学习技术目前虽然已被引入到lnc RNA-mi RNA相互作用的预测中,但是仅有几个计算方法被发表出来,并且它们还有待改进的空间,例如:使用的相似度度量方法效果不好,要求太多的额外特征作为辅助信息,无法为没有任何相互作用记录的lnc RNA或者mi RNA进行预测。为了解决这些问题,本文提出了一种名为基于信息补全的序列驱动的邻居加权传播方法(SNWPM-IC)的模型来预测lnc RNA和mi RNA之间的相互作用,它的主要创新点在于邻居加权相似度和信息补全策略。SNWPM-IC模型的大体过程如下:首先利用邻居加权相似度方法和lnc RNA序列、mi RNA序列以及已知的相互作用来计算出lnc RNA之间的相似度和mi RNA之间的相似度;然后利用信息补全策略分别整合了多个lnc RNA相似度和多个mi RNA相似度,并构建了基于整合后的两个相似度的图;最后在上述两个图上分别执行标签传播算法来对每个lnc RNA-mi RNA对进行打分,并线性加权上述两个打分值作为最终的预测结果。一系列的实验结果表明了SNWPM-IC模型与其它最新方法相比可以更准确地预测lnc RNA-mi RNA相互作用。