【摘 要】
:
大数据时代的到来不仅实时地影响着我们工作与生活,而且还推动了国家经济与社会发展等领域的技术大变革。数据收集的目的是根据需求从数据中提取有用的信息,并将其应用到具体领域中转变为知识,这就形成了数据挖掘这一新的研究领域。在非计算机学科领域,对于大数据应用往往停留在简单基础的数据挖掘模型,对数据挖掘算法的处理结果如何使用,计算机学科领域的研究通常较少关注;这就导致非计算机学科领域局限于对处理结果的认识不
论文部分内容阅读
大数据时代的到来不仅实时地影响着我们工作与生活,而且还推动了国家经济与社会发展等领域的技术大变革。数据收集的目的是根据需求从数据中提取有用的信息,并将其应用到具体领域中转变为知识,这就形成了数据挖掘这一新的研究领域。在非计算机学科领域,对于大数据应用往往停留在简单基础的数据挖掘模型,对数据挖掘算法的处理结果如何使用,计算机学科领域的研究通常较少关注;这就导致非计算机学科领域局限于对处理结果的认识不足,难以有效地将数据挖掘结果转化为切实可用的信息内容。最终导致大数据在特定应用领域的模型结构上普遍趋于简单化,在数据挖掘结果和实际应用之间出现断层。而该问题可以依靠数据后处理得到较好解决。本文针对挖掘结果和实际应用之间的断层问题,以数据后处理方法为研究对象。通过总结数据后处理领域的研究成果,分别从结构后处理和内容后处理两个角度来归纳数据后处理框架,并通过具体数据应用实例来与传统的数据处理方法作对比分析。论文的研究内容由以下两部分组成:(1)基于变换数据挖掘结果的结构,最终形成了新结构或者新的模型框架形式下的数据挖掘结果展示方式的后处理方法,本文提出了一种构建多粒度数据挖掘模式框架的理论方法。优化了可持续致贫原因分析模型(Sustainable Poverty Causes Analysis,简称SPCA)模型并基于此构建了一种多粒度的数据挖掘模型。以某平台上的数据为例,本文对如何提高数据的价值密度,如何分层递进地支撑精准扶贫减贫施策问题的知识库进行验证,实现了通过结构数据后处理来提升挖掘结果的可理解性方法。并将其与原SPCA模型的挖掘分析结果进行了比较,最终在可视化和量化两个方面上补充了原SPCA结构的不足,得到了更全面的分析结果。(2)基于优选数据挖掘结果的内容,最终形成了更具代表性、更简明扼要的数据挖掘内容的后处理方法,本文提出了一致性探测的过滤式特征选择方法,并将其用于该类后处理方法。该方法通过不一致程度来衡量特征重要性和依赖性度量计算相关系数等一致性度量方法。根据数据类内方差越小,该数据与分类就有越高的一致性原理;通过分析类内方差与总方差的比值来衡量不同类别上特征与目标分类分布的一致性。最后,将本文提出的一致性探测方法与现有的皮尔森相关系数法分别应用于MINST数据集的特征选择,并通过SGD算法对各自选择结果的分类准确性进行了比较,结果表明基于内容后处理的一致性探测方法比皮尔森相关系数法更能保留重要的分类能力。
其他文献
近年来,共建共享的发展理念逐步深入人心,习近平总书记提出的“五大发展理念”,把共享作为发展的出发点和落脚点,社会中人人共建、人人共享是经济社会发展的理想状态,无障碍建设是否健全不仅体现了一个国家的社会文明,也体现了全社会对弱势群体的包容和支持。目前,对无障碍设计的研究主要集中在公共建筑、公共交通和室内适老化设计等方面,无障碍设计在园林景观方面的研究成果较为单一,多围绕某一个或几个无障碍要素进行展开
相对于传统的被动噪声控制,主动噪声控制具有更强的适应性和低频噪声控制能力,在噪声控制领域的地位变得越来越重要。但主动噪声控制系统对目标噪声进行控制时,参考麦克风易受到其它环境声源的干扰,造成参考信号与目标噪声的相关性降低,进而导致次级声源发出频率成分与环境声源相关的声波,对声场中的环境声造成衰减。论文提出了基于广义旁瓣抵消器的参考信号重塑方法,通过空间滤波提取声场中的目标噪声信号并抑制环境声源信号
随着我国城市化进程不断加快,建设项目的规模、功能复杂程度在逐渐增大,目前基于二维图纸的建筑方案设计信息同步不满足建筑行业信息化发展的需求,存在效率低下、准确性较差、协同不畅等问题,且由于图纸信息较为分散导致信息利用水平较低。BIM技术作为我国“十三五”期间建筑业信息化技术发展的重要内容,其信息模型集成与利用的能力为建筑方案设计领域提高设计成果质量和工作效率带来了便利。如何利用BIM的优势,将BIM
恶臭污染是国内外公共投诉的主要产生者,恶臭气体来源广泛,成分复杂,而评估主要恶臭物质是除臭的关键因素,目前评价主要恶臭物质方法主要有评价指标法、气味轮分析方法以及气味活性值(OAV)三种方法,而目前大部分文献采用OAV法。目前对于恶臭气体的研究主要集中在垃圾填埋场,畜禽养殖业和污水污泥处理系统,而缺乏对人类粪便除臭的研究,人类粪便中有机物的复杂性导致其恶臭高于大多数恶臭水平。我国人口按14亿计算,
由于集装箱运输的高速发展,集装箱码头之间的竞争也越来越激烈。泊位与岸桥是集装箱码头中为船舶提供服务的关键资源,能够直接影响码头对外的服务效率,也影响码头内部其他的工作环节。如今集装箱吞吐量增加、船体大型化和码头资源受限等情况,造成我国集装箱码头泊位分配和岸桥调度不合理的问题,导致船舶在港停留时间延长,中转速度下降,码头装卸效率降低,运作成本增加。泊位与岸桥在作业时相互影响,不可分割,因此实现高效的
为应对能源危机和环境污染的双重挑战,我国近年来投入了大量人力物力财力发展电动汽车,但快速的产业发展并未能消除人们在选购电动汽车时关于续驶里程以及电池安全方面的焦虑。锂离子电池因其能量密度高等多方面优势成为动力电池的首选,作为纯电动汽车的唯一储能装置,电池工作温度是影响输出性能和安全性的关键参数。锂离子电池理想工作温度水平较低,为在高温环境下寻求可靠冷源对其进行有效热管理,电动汽车的蒸气压缩制冷循环
城市河道作为城市生态系统的蓝色生命线和区域生态稳定的活跃因子,是城市生态系统稳定的重要组成部分。在如今生态文明建设的大背景下,城市河道滨水空间的建设呈现日益增长的发展趋势,研究公园城市背景下的城市河道景观设计,对于推进成都美丽宜居公园城市的建设有着重要意义。本文主要从公园城市和城市河道景观相关理论、城市河道景观设计方法、成都市鹿溪智谷上游案例研究、基于公园城市内涵市民使用成都市鹿溪智谷上游后的评价
本论文针对成兰铁路(四川段)沿线生态敏感区域边坡生态修复的迫切需求,以干旱河谷气候区镇江关镇镇江关车站D2K204+409.4~D2K204+457.0段线路右侧和亚高山气候区川主寺车站附近东北沟1#双线大桥边坡D1K256+918.438~D1K257+257.562段线路右侧为研究区。该研究区域曾采用传统喷播植草、撒播植草等方式进行边坡生态修复,但是无任何效果。本文采用铁路沿线野外调查、试验样
近年来,随着安全监管措施不断完善,监管力度不断加大,即使我国特种设备数量随着经济的快速发展而逐年增加,特种设备整体的安全运行状况也保持稳定并逐渐得到改善。但由于特种设备的品类多,尤其是机电类特种设备应用范围广,事故一旦发生,就会造成惨重的后果,给企业的生产安全和人民的生命及财产安全造成巨大损失。据有关资料表明,特种设备安全事故80%以上由人为失误引起,这暴露出在人的因素研究与管理上存在明显的短板。
中国的经济自改革开放以来,GDP飞速增长,其中房地产企业如雨后春笋般发展得十分迅猛,进入21世纪后,房地产行业在我国经济中也占据了一席之地,而其中,商业地产尤其是商业综合体项目在促进经济发展的过程中更是起到了相当重要的作用。但是在商业综合体项目的开发建设阶段,对于我国大部分房地产企业来说,关注点在于是项目投资带来的丰厚收益以及开发经营的风险,对潜藏在项目建设过程中的风险研究不到位。商业综合体项目与