反向传播神经网络的蛋白质质谱高通量分析方法研究

来源 :计算机与应用化学 | 被引量 : 0次 | 上传用户:qq68813172
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肿瘤是一种多基因参与、多步骤发展、内外环境交互作用下形成的复杂疾病,临床研究显示,对恶性肿瘤而言早期诊断的意义远大于现有的任何一种治疗方案,因此,如何提高肿瘤的诊断率,尤其是早期诊断率已被公认为是改善其疗效和预后的关键.由于蛋白质而并非核酸才是生命活动的具体执行者和体现者,因此,对有关肿瘤的蛋白质质谱数据进行深入研究、挖掘和分析,以期实现肿瘤的早发现,早治疗,在当前显得尤为重要与迫切.因此,本文基于反向传播神经网络对蛋白质质谱数据进行了分析.首先,对蛋白质质谱数据进行了标准化处理,由于蛋白质质谱数据在每个质荷比上的丰度值可能存在较大差异,为防止参与特征提取的各丰度值由于其非均衡性带来的不利影响,因此,在对高维丰度值进行特征提取前,需要对每个丰度值进行标准化处理.又由于质谱数据维数较高,利用主成分分析对数据进行了降维处理,主成分分析属于代数特征分析方法,是模式识别领域中一种经典的特征抽取和降维方法.主成分分析在最小协方差意义下给出了模式样本的最优表示,其优点是消除了模式样本之间的相关性以及实现了模式样本的维数压缩.然后利用反向传播神经网络训练了降维后的数据并进行分类识别.反向传播神经网络的学习规则分为两个阶段:第一阶段(模式顺传播)输入信息从输入层经隐含层逐层计算各单元的输出值,第二阶段(误差逆传播)将输出误差逐层向前算出隐层各单元的误差,并用此误差来修正前层权值.在训练的过程中,即网络的连接权值和闭值被逐步调整,在训练结束之后,网络从输入样本中获得信息并存贮在连接权值和闭值中,根据这些参数和实际样本输入,就可以得到所需要的预测值.本文以卵巢癌质谱数据集为例,通过3个实验来验证本文方法在肿瘤早期发现上的有效性.卵巢癌质谱数据集包含两类,即正常与异常两类.正常类中包含91个样本,每个样本包含两种数据,即质荷比数据以及其对应的丰度值;异常类中包含162个样本,每个样本也包含质荷比数据以及其对应的丰度值两种数据.在实验1中,从正常类的质谱数据中选取10个样本作为训练样本,5个样本作为测试样本;从异常类的质谱数据中也选取10个样本作为训练样本,5个样本作为测试样本,实验结果显示随着投影轴数的增加,本文方法的识别率总趋势也在不断地提高,最终达到了100%的识别率.这是由于不仅质谱数据集的规模较小,而且在反向传播神经网络中,训练样本数较之测试样本数较多,反向传播网络得到了很好的训练.在实验2中,从正常类的质谱数据中选取30个样本作为训练样本,30个样本作为测试样本;从异常类的质谱数据中也选取30个样本作为训练样本,30个样本作为测试样本,实验结果显示在训练样本与测试样本数都是60个的情况下,随着投影轴数的增加,其识别率的变化趋势.尤其在15个投影轴下,其识别率最高,在此之后,识别率会随着投影轴数的增加而有所降低.在实验3中,从正常类与异常类的质谱数据中各选取前一半样本作为训练样本,后一半样本作为测试样本;在整个卵巢癌质谱数据集上的分类实验结果显示了本文方法在在整个卵巢癌质谱数据集下的识别率,可以看出其识别率是比较高的,且算法是稳定的.这也验证了本文方法在蛋白质质谱高通量分析中的有效性,为蛋白质质谱高通量分析提供了新的方法与支撑.
其他文献
机电自动化技术的发展出现都不是孤立的,他是现代科学技术的不断发展。不断创新的结果,也是现代社会发展到这一时期必然带来的产物,在自动化发展穷处不断的今天,相关技术有许多,也
体育教师的师德、师风、业务水平、自我修养等方面对素质教育的不断深入有着积极的影响,在教学中起主导作用的教师对自身素质、自身修养必须加以重新定位和思考。
“天人合一”观可追溯于原始宗教巫术,是中华民族的基本精神。《庄子》中的生死观、审美观和齐物论思想体现着“天人合一”的精神,这对现代社会有着重要的现实意义。
建立了气流吹扫-注射器微萃取(GP-MSE)与全二维气相色谱/飞行时间质谱(GC×GC/TOFMS)联用分析原油成分的方法。为了找到适用于原油样品分析的GP-MSE条件,用饱和烃混合标准溶
设计了一种基于厚气体电子倍增器(THGEM)的快中子探测器。通过研究其对252Cf快中子源(2.13 Me V)和137Csγ源(661 ke V)的响应,分别得到了在80 m V、160 m V、260 m V三种电
柔性有机太阳能电池具有质轻、制作工艺简单、成本低等特点,现已成为近年太阳能利用方面研究的热点.从光伏效应的基本原理和器件结构出发,重点介绍了柔性有机太阳能电池基板
针对间歇过程的多工况和非线性特征,提出一种基于近邻特征标准化(Nearst Neighborhood Feature Standardization,NNFS)样本的核特征量(Kernel Feature Statistics,KFS)故障检
通过简化ASM1模型建立污水生物处理中异养菌新陈代谢的数学模型,在此基础上将PWM方法应用于污水处理过程控制.首先,使用局部工作点最优线性化方法将建立的非线性模型线性化,
用密度泛函理论(DFT)和含时密度泛函理论(TD。DFT)对咔唑的6种共轭基团取代衍生物的电子结构和吸收光谱性质进行了比较研究。对衍生物的基态分子结构运用B3LYP/6-31G(d)水平
采用密度泛函方法,研究了大黄中几种蒽醌类化合物与氧分子以及DNA和RNA碱基之间的光敏反应。所有的激发态计算包括垂直激发能采用的都是含时密度泛函方法(TD.DFT)。计算结果