论文部分内容阅读
在生物的基因组上除了有具有编码蛋白能力的基因之外,还具有大量不编码蛋白质的序列,而研究表明不具备编码能力的DNA序列也会产生相应的RNA转录产物。这些不具有编码蛋白质的能力的RNA,在基因的表达和基因表达的控制、细胞的存活周期调控,乃至个体的整个发育等过程中都具有不可替代的重要作用。而针对这些非编码RNA功能的研究,前提便是将其区分于编码RNA。此前常用的方法为通过大量统计找出其分别的特征,并运用这些特征对RNA进行编码能力预测,这个过程中的特征提取需要耗费大量的人力物力投入。 深度学习是机器学习领域里面一个重要的研究方向,随着计算能力的极大提升,最近几年深度学习在自然语言处理,计算机视觉等多个领域被广泛研究及使用。其实现原理主要是通过让计算机模拟人类认知,以实现对其他对象的识别、分类、预测。而深度学习所具备的最大的优势,便是它具备自动化的特征学习能力,将其运用于非编码RNA的鉴定,能够绕过需要大量人工投入的特征提取过程,并取得不错的结果。 本课题以卷积神经网络为基础,通过利用卷积网络对数据的空间特征的敏感性以及深度信念网络对样本数据的强大自学习能力,设计了一个能够有效识别RNA数据中的编码区以及非编码区的深度信念网络。该模型在训练学习的过程中未添加任何人类已知的序列的特征,直接只输入数据与标签,其过程中间所得出的特征完全为网络自学出来的,并且该网络具备极高的准确度,充分证明了其提取的特征的有效性。此外,本课题还将该模型运用于不同的物种中进行验证,其实验结果验证了物种间基因序列层面上的相似性。 本文主要工作为探索性的将深度学习与生物信息数据处理进行结合,并得出了不错的效果,充分证实了深度学习在该领域所具备的巨大潜力,本文在最后结合本次课题中遇到的问题,对这一研究方向的发展提出了一些待解决的问题。