机器学习方法在基因位点识别中的应用

来源 :中国科学院研究生院信息学院 中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:titansea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学已经成为整个生物学发展的重要组成部分,用数理和信息理论与技术去分析生物信息,开展生物信息学研究将极大地推动生命科学的进步。随着各种生物数据的快速增加,如何处理生物数据并从这些数据中获得有用的信息,已经成为模式识别和生物信息学研究中非常重要的研究课题之一,真核生物基因的位点识别是生物信息学研究的重要环节。研究基因位点的识别有助于基因组信息结构分析,基因识别及功能预测。利用统计分析、模式识别等方法对基因组进行信息结构分析和特征提取,可以为基因识别和功能研究提供依据。本文利用模式识别方法和计算机技术相结合,对真核生物基因特别是人类基因供体位点和受体位点序列特征及其位点识别问题进行了尝试性的研究,取得了如下主要研究成果:   (1)收集生物数据并对数据进行预处理。包括4个真实位点数据集和2个虚假位点数据集,对这些数据做了相应的统计分析,得到了一些对基因位点识别有用的统计特征。   (2)通过将位点附近5个碱基共同考虑,推广了短序列模式识别方法,并将推广的方法应用在供体位点识别上,很大程度上提高了判定虚假位点数据的能力,从而得到了供体位点较好的识别结果。应用在受体位点识别中,对提高受体位点的识别率同样起到了一定的作用。   (3)推广权重矩阵理论为概率回溯法,将权重矩阵和模拟退火相结合,对受体位点的识别率有较好结果。将推广的短序列模式、权重矩阵和模拟退火相结合,对供体位点进行识别,得到了较好的识别结果。   (4)将矩阵空间法应用在位点识别问题中。视序列为四维空间中的链,定义了链之间的距离,确定了链截取的长度。这是一种具有明显数学意义的方法。试验中用支持向量机处理矩阵空间法和局部特征法所提取的特征,对受体位点的识别取得了较好结果。
其他文献
本文对提高超声波测距精度进行了研究。文章提出了一种采用可调激励频率、可调激励脉冲数的激励方案,以及综合使用阈值判决和相关分析进行快速测距的信号处理方案。在对激励方
信息隐藏是一种在数字多媒体中隐藏隐秘信息的技术,与之对应的信息隐藏检测是指分析多媒体数据或者其他可用于信息隐藏的载体。检测隐秘信息的存在,从而阻断可疑的隐蔽通信渠道
本文以此为背景,开发出基于GSM移动通信网络的公众短信息服务业务,将盗警信息通过发送短信的方式,发送到制定的电话或手机或监控中心或监控调度中心,实现信息的快速,准确的上报,并
本文以表面贴装工艺中的视觉系统为研究对象,通过深入分析各个环节图像处理的不同特点,并引入数学领域中的几何矩和四元数的概念,从而有针对性地提出了三个算法: 1.基于二次分
数据驱动控制最早来源于计算机科学领域,控制领域出现这个概念是在近几年的事情。在生产数据大量积累的今天,面临工业过程难于机理建模的挑战,如何充分利用数据中包含的巨大
遥控水下机器人(ROV)工作在未知的不确定的复杂海洋环境中,其机械部件和控制系统极易出现故障。推进器是ROV的动力装置,对ROV完成水下作业,顺利回收起着至关重要的作用。推进器
数字水印技术作为信息安全技术研究领域中的一个新兴方向得到了广泛的研究。然而数字水印的嵌入通常会引起原始数据发生不可恢复的形变,虽然这种变形通常很小,但对医学图像或者
本文以交流伺服电机为对象,研究系统的定频滞环SVPWM电流控制方案。 首先,介绍了系统的硬件设计。硬件采用主回路和控制电路分开设计的方案,有利于设计不同驱动功率的调速系
工业过程本身的物理特性存在延时,信号转换需要延时,网络通讯延时和计算延时等因素也无法忽略,这些都决定了时滞效应广泛存在,而普通的控制方法对时滞系统的控制效果并不理想。为
永磁材料的发展,特别是高性能永磁材料(例如钕铁硼永磁)在电机中的应用,为永磁同步电机的研制和推广应用开辟了一个十分广阔的空间。同时随着电力电子器件以及数字处理芯片的发