基于随机森林(RF)高维组学数据特征筛选FDR估计研究

来源 :哈尔滨医科大学 | 被引量 : 0次 | 上传用户:qiyueliuhua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:随着微阵列检测技术和色谱质谱联用技术的快速发展,基因组、蛋白组、代谢组等高维度、低样本量的组学数据对传统统计学方法提出了新的挑战。其中,控制和估计变量筛选结果的假发现率(FDR)十分重要,然而现有的FDR估计方法需要有严格的变量独立性假设,本研究探讨在变量相关条件下基于随机森林(RF)的高维数据特征筛选的FDR估计方法。  内容:主要研究:FDR估计方法的基本理论、在多变量相关情况下采用单变量方法估计FDR的风险、不同方法的统计性质和适用范围、RF模型特征筛选与FDR估计。本研究提出一种新的RF-FDR算法,该算法能够实现对高维数据的特征筛选和FDR估计。同时,应用该方法对卵巢癌代谢组数据进行FDR估计,分析其潜在的生物标志物数量。  方法:用R语言编程,通过模拟实验探索目前几种单变量FDR估计方法在不同数据结构下的有效性和适用条件。编写R程序进行模拟实验,研究随机森林(RF)变量重要性评分分布的特点;在此基础上确定最终随机森林模型的FDR估计方法,并通过模拟实验比较其在不同数据条件下的统计特性。最后,利用代谢组学实际数据验证该方法的有效性。  结果:主要结果如下:  ●在数据满足假设检验使用条件的情况下,多重假设检验中控制FDR与控制FWER的Bonferroni法相比,显著提高了检验的把握度,而且FDR的控制界值可以灵活进行调整,而Bonferroni法的控制界值随变量个数而改变,无法人为调整。  ●根据单变量假设检验的p值进行FDR估计,在变量无相关结条件下估计准确,变异也较小;但在变量存在强相关条件下,FDR估计出现严重的偏性,已不具备实用性。  ●直接利用FDR的Bayes公式对随机森林筛选的结果进行FDR估计会出现明显的偏差。主要原因在于随机森林的变量重要性评分相互影响,差异变量的加入,将改变无差异变量的分布形状。  ●大量的模拟实验表明:用RF-FDR算法估计FDR具有较高的准确性,与单变量FDR估计方法相比较,变量相关对其估计准确性无影响,加上随机森林模型优异的变量筛选能力和广泛的应用范围,使得对其结果的FDR估计更具有实用性。  结论:变量筛选结果的FDR估计在高维数据的分析中具有重要意义,FDR估计可以为生物标志物的鉴定提供必要的依据,同时也可以提升现有变量筛选方法的筛选性能,尽可能多地筛选出生物标志物。本文给出的RF-FDR方法,既充分利用了随机森林筛选变量的能力,又能够通过准确地计算FDR值对其筛选结果进行评价,为实际工作提供了有力的支持。
其他文献
中国分类号:G633.6  中考数学复习时间短任务重,如何在有效的时间内搞好初中阶段所有数学课程的复习,是值得我们所有数学老师思考的问题。仔细品味近几年中考试题,了解中考命题动向,研究中考复习策略可以帮助我们指引复习课方向,提高复课效益。下面我就对近几年“空间与图形”领域考点分析如下:  (-)相交线与平行线  “相交线与平行线”主要借助角来研究平面内两条直线之间位置关系.“两条直线的位置关系与相
目的:近期生物学技术能够同时检测成千上万的生物分子,产生高通量的数据,如基因组学数据和代谢组学数据。这类数据一方面提供了极其丰富、详细的信息,另一方面这种高维、小样本数
中国分类号:G642.421  导语是一节课开始时教师为引入新课所说的话。导语不仅为整个教学过程定下基调,确定好教学的逻辑顺序,而且也是调动学生学习积极性的关键一步。如果导入能“一石激起千层浪”,一下子把学生的心抓住,那么,这就为后面的教学环节创造了优越的条件,为整个课堂教学的发展提供了良好的开端。好的导入语如同序幕,预示着后面的高潮和结局;如同路标,引导着学生的思维方向。她是教师谱写一首优美的乐
摘要:计算机故障判断是维护的关键;如何保养和维护好计算机,最大限度地延长计算机的使用寿命。这是我们非常关心和经常面临的问题。在这篇文章中,我们向你介绍最基本的的计算机维护方法和注意的事项,让你的计算机常常保持比较稳定的状态。  关键词:故障判断;维护方法;日常清洁  [中图分类号]TP305 [文献标识码]A [文章编号]1671—8437(2011)01-0010-01    如何维护好一台计算
目的:研究miR-200家族在莱菔硫烷(sulforaphane,SFN)抑制膀胱癌上皮-间质转化(EMT)中的作用机制。  方法:以体外培养的人膀胱癌细胞系T24为研究模型,采用0、2.5、5、10μmol/L
摘要:我省的高中新课程改革已经进行,这将给高中生物教学带来新的压力和挑战。新的形势更需要提高课堂教学的效率和有效性。本文对于如何在新课标理念下提高生物课堂的有效性提出了几点看法。从制定有效的教学目标、确定有效的教学内容、优化有效的教学方法、组织有效的教学活动等方面,探讨了实施“有效教学”的策略。  关键词:生物课程;有效教学:教学策略  [中图分类号]G40-056 [文献标识码]A [文章编号]
摘要:本课题是以磷酸、异丙醇铝为主要原料,合成介孔磷酸铝分子筛,并且通过合成方法的不同来研究合成工艺的优化。还通过多种物理和化学实验对其化学组成、结构、稳定性等方面进行相关研究,并进一步探讨合成原理和形成机理。  关键词:介孔分子筛;磷酸铝分子筛;晶化;表征;合成方法  [中图分类号]TB4 [文献标识码]A [文章编号]1671-8437(2011)01-0015-03    1756年瑞典矿物
如何培养和发展学生的创新能力一直是素质教育研究的热点.本文以编译原理课程教学为例,从激发学生创新意识、培养学生发现并解决问题的能力、引导学生进行创新活动和科研三个
中图分类号:G623.5  一、思维与兴趣的重要性和统一性  1.重要性。“数学思维”是指人们在面临各种问题情境时,从数学的角度去观察分析问题,发现其中的数学信息,并运用数学的知识与方法去解决问题的思考方式。从心理角度而言,如果抓住学生的某些心理特征,对教学将起到一个巨大的推动作用,兴趣的培养就是一个重要的方面。兴趣能激发大脑组织,加工有利于发现事物的新要素,并进行探索创造。兴趣是学习成功的秘诀,
摘要:随着科学技术的不断发展,多媒体教学以图文并茂、声像俱佳、动静皆宜的表现形式将课堂教学引入了全新的境界,深受教师和学生的欢迎。本文以原子物理教学为例,从原子物理教学的特点出发,阐述了多媒体教学在原子物理教学中的利与弊。  关键词:原子物理;多媒体教学;利与弊  [中图分类号]G642 [文献标识码]A [文章编号]1671-8437(2011)01-0020-01    随着现代科技的飞速发展