【摘 要】
:
基因数据分析已经逐渐成为疾病诊断及分类的常规步骤。原始基因数据的维数很高而样本却很小,因此如何从大量的基因数据中剔除冗余基因,提取出能够表征样本属性的特征基因成为
论文部分内容阅读
基因数据分析已经逐渐成为疾病诊断及分类的常规步骤。原始基因数据的维数很高而样本却很小,因此如何从大量的基因数据中剔除冗余基因,提取出能够表征样本属性的特征基因成为了研究的重点和难点。在实际应用中,可以利用有效的数据表示方法来解决这一难题,即利用数据的低维表示来挖掘出原始数据的内在结构和本质信息。目前已经被广泛使用的基因数据处理方法如主成分分析等在进行数据分析时的效果并不十分理想,因此可以利用非负矩阵分解(Nonnegative Matrix Factorization, NMF)算法来对原始基因数据进行处理即实现数据的低秩表示。与其它矩阵分解方法相比,此方法在体现局部特征信息的同时实现了有效的肿瘤分类。本文主要内容如下:1.本文首先概述了传统NMF算法的基本理论,并在此基础上简单介绍了几种NMF的变体算法,最后介绍了这几种改进型的目标函数和迭代规则。2.将双正交非负矩阵三因式分解BONMTF(Bi-orthogonal Nonnegative Matrix Tri-Factorization)算法应用到了基因表达谱数据挖掘中。首先对BONMTF算法进行了系统化分析;然后利用此算法得到能够表征样本属性的矩阵,并将其应用于肿瘤分类中,提高了样本的识别率。实验采用四组具有代表性的肿瘤基因表达谱数据,其结果证明了本文方法针对不同数据集的识别率比传统方法有所提高,不仅具有可行性而且具有广阔的应用前景。3.将对称三因式非负矩阵分解STFNMF(Symmetric Three-factor Nonnegative Matrix Factorization)算法应用到肿瘤分类中。首先使用记分准则来对基因进行排序,以降低噪声的干扰;其次利用谱图的方法将原始基因样本映射到高维空间中去,并通过所提出的权值矩阵来构造一个相似矩阵,然后利用STFNMF算法来进行特征提取;最后使用SVM实现肿瘤样本的分类。实验采取了四种广泛使用的基因表达谱数据,并通过大量实验验证了所提出的算法相比于其它传统算法有更好的性能。
其他文献
随着信号发生器在众多领域的广泛应用,人们对信号发生器提出了越来越高的要求。由于传统信号发生器的缺点,使得直接数字频率合成技术(DDS)应运而生。凭借其自身众多优点,DDS在数
自上世纪90年代以来,数据业务的迅猛发展推动了电信传送网络向着高带宽和多业务的方向发展。DWDM技术的引进使得传输网络获得了潜在的无限带宽。在这样一种高速、多业务的传
Ad Hoc网络(MANET)是由一组移动终端临时、动态组成的多跳无线网络,它不需要使用任何现有的网络基础设施或中心化管理。因为自组织、快速部署和无需任何固定基础设施等特点,Ad
视景仿真是虚拟现实技术的最重要的表现形式。视景仿真采用计算机图形图像技术,根据仿真的目的,构造仿真对象的三维模型或再现真实的环境,达到非常逼真的仿真效果,使用户与所仿真
移动Ad hoc(MANET)网络是一组带有无线收发装置的移动节点组成的一个临时性自治网络系统,具有自组织、多跳性、动态性、没有固定基站和中心服务器等特征,是对现有计算机通信
协作技术是随着无线网络及无线通信发展而产生的新技术,由于其能够充分利用网络节点资源,优化系统性能,尤其适合在节点间对等的无线通信网络中。在无线网络定位中应用协作技
随着科技的发展,电能以其低污染、方便快捷的优点广泛应用于社会各个领域中,电能应用的程度和覆盖范围现已作为评定国家经济发展水平和衡量综合国力的重要标志。同时,电能作为与人类生产生活息息相关的商品,其质量与可靠性是保障人民生产生活、稳定国家持续发展的重要基础。而非线性和冲击性的重负荷大量应用,天气、地形等一些不确定环境因素的影响,给电力系统的稳定性和可靠性带来了新的挑战。线路故障是当前影响电力系统稳定
随着宽带网络和视频压缩技术的不断发展,利用便携设备点播多媒体信息、已经成为人们的迫切需求。本文在ARM9平台和嵌入式Linux的基础是,实现了流媒体的嵌入式终端点播。本文所
本文围绕下一代通信核心技术的MIMO-OFDM系统,重点研究了其中一项关键技术——信道估计。信道估计技术是指对无线移动信道的多径衰落瞬时特征进行估计的技术,即从接收信号中
无线局域网是移动通信发展最快的领域。在过去的短短几年中,基于IEEE 802.11的WLAN、基于IEEE 802.15的BLUETOOTH、基于IEEE 802.16的WiMAX都在各自的领域中得到了极大的发展