基于深度学习的非编码RNA鉴定

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:sophia0d
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物的基因组上除了有具有编码蛋白能力的基因之外,还具有大量不编码蛋白质的序列,而研究表明不具备编码能力的DNA序列也会产生相应的RNA转录产物。这些不具有编码蛋白质的能力的RNA,在基因的表达和基因表达的控制、细胞的存活周期调控,乃至个体的整个发育等过程中都具有不可替代的重要作用。而针对这些非编码RNA功能的研究,前提便是将其区分于编码RNA。此前常用的方法为通过大量统计找出其分别的特征,并运用这些特征对RNA进行编码能力预测,这个过程中的特征提取需要耗费大量的人力物力投入。  深度学习是机器学习领域里面一个重要的研究方向,随着计算能力的极大提升,最近几年深度学习在自然语言处理,计算机视觉等多个领域被广泛研究及使用。其实现原理主要是通过让计算机模拟人类认知,以实现对其他对象的识别、分类、预测。而深度学习所具备的最大的优势,便是它具备自动化的特征学习能力,将其运用于非编码RNA的鉴定,能够绕过需要大量人工投入的特征提取过程,并取得不错的结果。  本课题以卷积神经网络为基础,通过利用卷积网络对数据的空间特征的敏感性以及深度信念网络对样本数据的强大自学习能力,设计了一个能够有效识别RNA数据中的编码区以及非编码区的深度信念网络。该模型在训练学习的过程中未添加任何人类已知的序列的特征,直接只输入数据与标签,其过程中间所得出的特征完全为网络自学出来的,并且该网络具备极高的准确度,充分证明了其提取的特征的有效性。此外,本课题还将该模型运用于不同的物种中进行验证,其实验结果验证了物种间基因序列层面上的相似性。  本文主要工作为探索性的将深度学习与生物信息数据处理进行结合,并得出了不错的效果,充分证实了深度学习在该领域所具备的巨大潜力,本文在最后结合本次课题中遇到的问题,对这一研究方向的发展提出了一些待解决的问题。
其他文献
现在的数据中心每天必须处理成千上万的独立用户所产生的请求和数据,云计算和大数据类的应用负载使得数据中心的内部流量和外部流量占比发生了巨大的变化,占比已经从原来的5∶9
微博分类作为处理和组织大量微博数据的关键技术,可以很大程度上解决微博信息爆炸的现象。但由于微博文本具有长度短、口语化等特点,传统的文本分类技术对微博文本不太适用。随
图像配准是图像处理中的一个重要课题,也是图像融合首先要解决的问题,在许多实际应用中具有重要意义,是医学图像分析、遥感图像处理和目标识别的基本组成部分。随着新型传感
无线传感器网络中的节点一般采用电池供电,如何提高能量的有效性成为其主要研究内容。ZigBee是一种新兴的短距离、低速率、低功耗无线网络技术,主要用于近距离无线连接。本课题
虽然网络安全技术发展迅速,但由于网络拥有复杂的结构、庞大的规模以及广阔的地域分布,加上网络攻击技术不断提升,目前网络安全形势仍十分严峻。传统网络安全技术偏重被动静态防
近年来随着互联网视频规模的不断增大,为了加速视频在服务器的编解码速度,提升系统性能和服务质量,视频硬件加速技术不断发展。DPU-m是一款高通量多核视频加速芯片,主要用于服务
随着语音识别技术的不断进步,语音识别在人们的生活和工作中越来越普及。然而由于识别错误不可避免,为了得到正确的识别结果,越来越多的研究者将语音识别与人机交互进行结合,从而
随着互联网应用的飞速发展,信息安全问题变得日益突出。传统的信息安全系统主要是由防火墙、攻击检测等组成,主要是在资源共享的环境中,针对外围非法用户进行封堵,而对访问者源端
混合动力系统的高效运行依赖于各部件的匹配及控制策略,其优化模型具有不可微、多维、带约束、非线性等特点,是典型的多目标优化问题。当前针对混合动力系统多目标优化研究,采用
随着集成电路技术的发展,微处理器设计和验证的复杂度日益增长。模拟器定应对上述挑战的重要手段,模拟器可以针对微处理器进行不同粒度模拟,包括指令级模拟、微体系结构级模