论文部分内容阅读
目的:现代基因组学、蛋白组学和代谢组学等研究产生了大量的高维组学数据。高维数据分析的重要任务之一是筛选具有生物学意义的特征标志物,通过比较正常和疾病状态下基因表达、蛋白表达及代谢产物的差异,研究疾病的发生机理、早期诊断及治疗方法。高维数据分析的主要困难是相对于给定的样品数目,需要分析的特征变量数目巨大(2000-50000),对“差异变量”的鉴别会产生大量的假阳性结果。本研究针对这一问题,给出一种新的基于遗传算法的随机森林模型(GARF)和特征筛选算法,有效地用于医学高维组学数据的特征筛选。
内容 1.遗传算法和随机森林模型的原理、算法实现及特点,在此基础上提出基于遗传算法的随机森林模型(GARF)特征筛选方法,对其原理和算法进行阐述并使用R语言实现;2.通过模拟数据和实际数据对算法特性进行初步研究,确定适用于组学研究数据特征筛选的参数设置;3.通过计算机模拟实验进一步考察其性能,观察采用GARF进行特征筛选前后随机森林分类模型对模拟数据的判别效果,并通过实际数据比较varSelRF法与GARF法的特征筛选效果;4.通过模拟数据考察GARF特征筛选效果,重点考察其对FDR的控制能力;5.给出基于Permutation检验估计GARF特征筛选结果的I类错误概率的方法。
方法:在分析遗传算法与基本随机森林模型开源R代码的基础上,利用R和SAS两种语言,开发计算和模拟实验用程序包;根据高维组学研究数据分子生物信息的特点,采用统计理论与生物信息技术、计算机模拟方法相结合,针对不同类型的数据进行分析和评价;利用公开的生物信息数据库GEO datasets,选择具有典型意义的样本数据进行分析,利用生物功能数据库GEO profiles,对筛选结果的生物学意义进行解释,以考核GARF算法的有效性和适用性。代谢组数据由超高效波相色谱/质谱联用仪器测得。
结果本研究主要结果:
1.本研究提出了一种基于遗传算法的随机森林模型和新的特征筛选方法一GARF法。GARF将随机森林对变量的评价以及降噪过程嵌入遗传算法中,使随机森林对全局变量的操作变为对进化后的若干变量子集操作,降低噪声变量对随机森林评价的干扰,避免模型过拟合,同时利用遗传算法的全局“最优”搜索能力,在不同染色体提供的多样化特征筛选结果的基础上,进行统计分析和信息融合,实现对高维并具有复杂结构的基因表达等组学数据的特征筛选。
2.通过模拟实验对GARF特征筛选方法的参数设置进行了研究。GARF算法需要设置多个参数,这些参数直接影响其特征筛选的性能。本研究通过模拟、仿真实验对参数进行了优化。结果表明,我们给出的参数设置是稳健和有效的。
3.本研究对白血病、乳腺癌、糖尿病、皮肤癌和结肠炎共五个基因芯片数据进行了分析,获得较为理想的结果。通过查询基因功能数据库GEO profiles从生物学角度对筛选结果进行了解释,结果显示利用本文给出的GARF法可以有效的选入与疾病有关的基因。对于尚无文献报道的基因,可以作为进一步研究的重要线索。此外,还对卵巢癌蛋白组和卵巢癌代谢组数据进行了分析,其中前者获得了很好的分析效果,而卵巢癌代谢组数据分析结果不够理想。
4.采用Permutation方法给出了由GARF筛选出的特征变量统计检验的P值,P值既可以作为选入变量的重要性评价指标,也是计算FDR的基础。据此可以进一步获得选入的特征变量中假阳性结果所占比例的估计值,由此判断特征筛选结果的可靠性。
5.基于R语言编制了GARF特征筛选方法的软件包,该软件对高维数据的维数没有任何限制,可用于实际数据分析。医学研究者可以根据不同的研究目的和问题背景,通过设置适当的参数,得到多样化的特征筛选结果,为生物标志物的提取和鉴别提供了有效的分析工具。
结论:本文给出的基于遗传算法的随机森林模型(GARF)特征筛选方法能够有效地对高维数据进行特征筛选。与随机森林(RF)和基于随机森林的浮动搜索法(VAR)相比,GARF具有更合理的算法结构、高效率的执行过程和稳定的运算结果,适用性更强,可以有效地用于高维组学数据的特征筛选。