基于遗传算法的随机森林模型及在高维数据特征筛选中的应用研究

来源 :哈尔滨医科大学 | 被引量 : 0次 | 上传用户:Stanleytsang627
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:现代基因组学、蛋白组学和代谢组学等研究产生了大量的高维组学数据。高维数据分析的重要任务之一是筛选具有生物学意义的特征标志物,通过比较正常和疾病状态下基因表达、蛋白表达及代谢产物的差异,研究疾病的发生机理、早期诊断及治疗方法。高维数据分析的主要困难是相对于给定的样品数目,需要分析的特征变量数目巨大(2000-50000),对“差异变量”的鉴别会产生大量的假阳性结果。本研究针对这一问题,给出一种新的基于遗传算法的随机森林模型(GARF)和特征筛选算法,有效地用于医学高维组学数据的特征筛选。   内容 1.遗传算法和随机森林模型的原理、算法实现及特点,在此基础上提出基于遗传算法的随机森林模型(GARF)特征筛选方法,对其原理和算法进行阐述并使用R语言实现;2.通过模拟数据和实际数据对算法特性进行初步研究,确定适用于组学研究数据特征筛选的参数设置;3.通过计算机模拟实验进一步考察其性能,观察采用GARF进行特征筛选前后随机森林分类模型对模拟数据的判别效果,并通过实际数据比较varSelRF法与GARF法的特征筛选效果;4.通过模拟数据考察GARF特征筛选效果,重点考察其对FDR的控制能力;5.给出基于Permutation检验估计GARF特征筛选结果的I类错误概率的方法。   方法:在分析遗传算法与基本随机森林模型开源R代码的基础上,利用R和SAS两种语言,开发计算和模拟实验用程序包;根据高维组学研究数据分子生物信息的特点,采用统计理论与生物信息技术、计算机模拟方法相结合,针对不同类型的数据进行分析和评价;利用公开的生物信息数据库GEO datasets,选择具有典型意义的样本数据进行分析,利用生物功能数据库GEO profiles,对筛选结果的生物学意义进行解释,以考核GARF算法的有效性和适用性。代谢组数据由超高效波相色谱/质谱联用仪器测得。   结果本研究主要结果:   1.本研究提出了一种基于遗传算法的随机森林模型和新的特征筛选方法一GARF法。GARF将随机森林对变量的评价以及降噪过程嵌入遗传算法中,使随机森林对全局变量的操作变为对进化后的若干变量子集操作,降低噪声变量对随机森林评价的干扰,避免模型过拟合,同时利用遗传算法的全局“最优”搜索能力,在不同染色体提供的多样化特征筛选结果的基础上,进行统计分析和信息融合,实现对高维并具有复杂结构的基因表达等组学数据的特征筛选。   2.通过模拟实验对GARF特征筛选方法的参数设置进行了研究。GARF算法需要设置多个参数,这些参数直接影响其特征筛选的性能。本研究通过模拟、仿真实验对参数进行了优化。结果表明,我们给出的参数设置是稳健和有效的。   3.本研究对白血病、乳腺癌、糖尿病、皮肤癌和结肠炎共五个基因芯片数据进行了分析,获得较为理想的结果。通过查询基因功能数据库GEO profiles从生物学角度对筛选结果进行了解释,结果显示利用本文给出的GARF法可以有效的选入与疾病有关的基因。对于尚无文献报道的基因,可以作为进一步研究的重要线索。此外,还对卵巢癌蛋白组和卵巢癌代谢组数据进行了分析,其中前者获得了很好的分析效果,而卵巢癌代谢组数据分析结果不够理想。   4.采用Permutation方法给出了由GARF筛选出的特征变量统计检验的P值,P值既可以作为选入变量的重要性评价指标,也是计算FDR的基础。据此可以进一步获得选入的特征变量中假阳性结果所占比例的估计值,由此判断特征筛选结果的可靠性。   5.基于R语言编制了GARF特征筛选方法的软件包,该软件对高维数据的维数没有任何限制,可用于实际数据分析。医学研究者可以根据不同的研究目的和问题背景,通过设置适当的参数,得到多样化的特征筛选结果,为生物标志物的提取和鉴别提供了有效的分析工具。   结论:本文给出的基于遗传算法的随机森林模型(GARF)特征筛选方法能够有效地对高维数据进行特征筛选。与随机森林(RF)和基于随机森林的浮动搜索法(VAR)相比,GARF具有更合理的算法结构、高效率的执行过程和稳定的运算结果,适用性更强,可以有效地用于高维组学数据的特征筛选。
其他文献
摘要:目前的教学,绝大多数的班级,学生人数都是超编的,学生基础、成绩良莠不齐,尽管老师们很努力,但收效甚微,达不到理想的效果,教师们很是头疼。我向大家推荐一种较为理想的教学法,即“分层导学、异步同标”的教学法,希望对大家有所帮助。我的几点做法,总结叙述如下,与同仁磋商、共勉。
目的:通过对太原市第三人民医院近10年整体病例及常见传染病数据分析,包括其时间分布、地区分布、人群分布,总结其流行特征及变迁,为政府制定传染病的防治策略提供科学依据。方法:采用回顾性研究,记录病例中的年龄、地址、住院时间、住院天数、出院情况等资料,运用Excel2003、Spss13.0等软件进行描述性统计,x2检验及x2趋势检验等统计分析。结果:(1)太原市第三人民医院10年共收治法定传染病住院
摘要:创新是人类社会发展与进步的永恒主题,是一个民族进步的灵魂。新课程改革就是要培养学生的初步创新精神与创新能力。教师要与学生建立良好的师生关系,增强学生的求知欲,开拓发散思维。  关键词:初中物理:创新:培养  [中图分类号]G633.7 [文献标识码]C [文章编号]1671-8437(2011)01-0117-01    创新是人类社会发展与进步的永恒主题,是一个民族进步的灵魂,是一个国家兴
摘要:新课程改革呼唤数学教师解放思想、更新观念,尽快引领学生转变学习方式,培养良好的学习习惯,学会自主探究,倡导合作,基于此笔者提出激活思维培养学生自主思考发现的习惯、开启智慧培养学生合作交流研讨的习惯、躬亲示范培养学生仔细检查总结的习惯。  关键词:新课程;教师;学生;培养;学习习惯  [中图分类号]G633.6 [文献标识码]C [文章编号]1671-8437(2011)01一0122-01 
摘要:能力是在个人一定的身心基础上,经过教育和培养,并在社会实践活动科学实践中吸取人们丰富的智慧和经验逐步形成和发展起来的、社会在不断发展,科学技术在不断创新,我们实践中遇到的问题层出不穷、纷繁复杂,此时解决问题的特定方法必定会受到挑战。本文在生物教学中如何培养学生的创新能力和实验能力方面进行一定的讨论。  关键词:能力;生物:教学  [中图分类号]G633.91 [文献标识码]C [文章编号]1
目的:提取分离甘草中具有抗RSV作用的新的活性成分及其抗RSV作用机制,为治疗呼吸道合胞病毒感染寻找新型药物。   方法:甘草水提液经柱醇沉、大孔吸附树脂柱层析、薄层层析展
摘要:农村地区由于其经济发展的受限,教育教学观念比较落后,束缚了初中化学课的改革与发展。本文结合笔者的教学实践和多数农村初级中学的化学教学特点,谈谈如何提升农村初中的化学教学质量。  关键词:农村;初中化学;课堂教学;教学质量  [中图分类号]G633.8 [文献标识码]C [文章编号]1671-8437(2011)01-0128-01    近年来,广大农村化学教师在教学工作中做了大量的实质性工
摘要:在学习新的物理知识内容之前,利用一些示例引入所学的内容,在教学效果上往往事半功倍。怎样引入这一过程是有一定的技巧的,本文就如何巧妙将导入过程运用到初中物理新课作了介绍。  关键词:导入;初中物理;课堂教学  [中图分类号]G633.7 [文献标识码]C [文章编号]1671-8437(2011)01-0127-01    随着素质教育的不断深入,按照物理新课程标准的要求,教师必须尊重学生的个
摘要:初中生物是一门以实验为基础的科学,观察和实验是其研究和教学的重要方法。创设恰当的实验教学情景,训练学生的实验能力,对于课堂教学起着很重要的影响作用。  关键字:情境:生物教学;多媒体技术  [中图分类号]G633.91 [文献标识码]C [文章编号]1671-8437(2011)01-0130-01    初中生物情境教学就是在课程目标的要求下,以建构主义理论为指导,把形成生物学知识原理的有
摘要:“授人以鱼”不如“授人以渔”,随着现代社会高科技信息的技术和传媒的变化,知识的积累和更新的速度明显加快。把人类在探索物质世界过程中所运用的基本方法教给学生,成为了时代的要求。因此又务教育阶段的化学新课程根据初中学生的实际情况,提出了以提高学生的科学素养为主旨,激发学生学习化学的兴趣,帮助学生了解科学探究的基本过程和方法,培养学生的科学探究能力。使学生获得进一步学习和发展所需的化学基础知识和基