【摘 要】
:
随着万物互联时代的到来,各行各业的发展都离不开互联网,与互联网相关的各领域中充斥着大量复杂的数据信息,随之产生“信息过载”的问题,使得用户或一些企业平台很难从海量信
论文部分内容阅读
随着万物互联时代的到来,各行各业的发展都离不开互联网,与互联网相关的各领域中充斥着大量复杂的数据信息,随之产生“信息过载”的问题,使得用户或一些企业平台很难从海量信息数据中挖掘所需要的关键信息。针对庞大的数据处理任务,基于机器学习训练方式的集成分类模型能有效解决这类问题,但该模型因其自身的数据特征拟合困难和集成模型泛化误差等问题存在一定的局限性。因此,本文以随机森林集成算法为基础,通过改进基分类器和集成的方式对集成模型进行研究,本文的主要工作和改进如下:1.在分类模型数据预处理阶段,针对数据处理与特征选择过程中存在的特征属性划分困难、难以拟合数据集的情况,本次设计以特征作为重要依据,综合分析数据、特征、类别三者之间的关联性,通过特征重要性度量和P值效验的方式筛选出高效特征子集,最后利用随机森林模型进行分类精度的研究。通过实验数据仿真分析得出高效特征子集能有效解决特征属性划分问题,从而提升随机森林集成模型的精确率和召回率。2.在大规模数据分类阶段,针对随机森林集成算法内部因基分类器冗余、多样性不显著所造成的泛化误差问题,本文设计了一种结合特征信息和多样性的极限随机森林集成算法。该算法首先利用P值效验所筛选的高效特征子集,以随机树为基分类模型,引入了更多的随机性;其次对随机树进行结构上的冗余分析,避免节点处的特征重复;最后利用加权多数投票的方式构建一个高分类精度、多样化的极限随机森林模型框架。通过对不同实验数据集的仿真验证,实验结果表明提出的算法能有效解决模型的泛化误差问题,提高了集成算法的容错能力与数据拟合能力。
其他文献
在中国大力发展制造业,向建立工业强国、制造业强国的发展目标下,中国的工业生产模式正由小规模、多人工、低效率全面转向大规模自动化、安全可靠的生产模式,生产的规模和业务线种类日益增加,同时不断提出工业界的新标准,在工业生产中不断提出新名词:工业4.0,同步工程,大数据技术等等。智能仓储提出目的是有效解决工业生产和库存中物料、产品的快速流转问题,智能仓储不同于以往的旧式存储方式,旧式存储获取仓储中物料信
二氧化硫(SO2)是一种由燃料燃烧和工业排放的主要大气污染物,溶于水后极易形成两种衍生物亚硫酸盐(SO32-)和亚硫酸氢盐(HSO3-)。在生物体内,SO2具有独特的生物活性,有利于血压降
目的:探讨MPFL解剖重建联合髌外侧支持带松解治疗青少年急性髌骨脱位的临床效果。方法:该研究属于回顾性研究。随机选取23例(23膝)自2014年3月至2017年9月于承德市中心医院骨二科行MPFL解剖重建联合髌外侧支持带松解治疗的青少年急性髌骨脱位患者作为观察组,且手术均由同一高年资医师完成;随机选取同时期就诊于本院门诊行石膏或者支具外固定保守治疗的23例(23膝)青少年急性髌骨脱位患者作为常规组
在进行数据分析的时候,常常会遇到与整个数据集行为不相符的数据,这些数据被称为异常数据、异常值或者离群值。异常值检测是最基本的数据分析任务之一,用于发现罕见事件、例
竞业禁止制度主要作用是限制特定主体就职于竞争性行业,设置该制度的主要目的是希望能于一定程度上保护企业的人力资本,同时扼制行业内不正当地获取商业秘密、专利技术等无形
目的:急性髓系白血病(AML)细胞依赖谷氨酰胺生存,现有的基础研究表明谷氨酰胺剥夺可以发挥抗白血病效应。谷氨酰胺转运体主要包括溶质载体家族1、家族6、家族7和家族38,然而这些转运体在AML中谁发挥着更为重要的作用尚不清楚。本研究通过生物信息学分析结合实验研究,评价溶质载体家族38成员1(SLC38A1)的表达在正常核型急性髓系白血病(CN-AML)中的预后价值,探讨SLC38A1表达对AML细胞
颅内压(Intracranial Pressure,ICP)指颅内内容物对颅腔壁产生的压力,由于生理调节作用,正常人的颅内压维持在一个相对稳定的值。颅内高压是继发性脑损伤的主要原因,已证明颅
近年来,由于人们对能源问题日益关注,对新能源开发的投入日渐加大。生物质能由于其储量高、分布广泛、环境友好而备受关注,微藻作为第三代生物质能源,具有光合作用利用度高,高度自养,CO_2排放少、转化途径多等众多优势。由于微藻水含量高,水热可直接处理湿生物质而成为微藻能源化利用的途径之一。此外水热反应环境较为封闭,灰分的存在会对整个反应体系产生影响,但目前对于天然微藻的水热转化过程中灰分作用的研究非常少
随着社会经济的飞速发展,城市交通问题日益凸显,尤其是交通拥堵已成为严重制约城市可持续发展的重要原因。驾驶行为和交通信息对交通的畅通性有着重要的影响,因此开展驾驶行
作为知识推理的一个应用子集,健康知识推理在实际应用中存在体量大、结构相对复杂、不同类型的参数多(模糊、概率、时间等)等特点。而随着我国人口的逐渐老龄化,社会对于以心