数据挖掘中分类算法的研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:hades173053
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术能够从海量数据中获取有价值的信息。随着全球信息化浪潮的推进,以及互联网、物联网的繁荣发展,人们被浩如烟海的数据包围。面对规模庞大、增速迅猛的数据,若是没有功能强大的数据分析工具,理解并利用这些数据非常困难。因此,在大数据的时代,人们对数据挖掘技术有了更高的要求,在大数据的背景下,数据挖掘中的分类算法仍然面临着两个难题。首先,尽管收集数据变得越来越容易,但是由于人工标记数据耗时费力,因此获得充足的有标记样本去学习高泛化能力的模型变得很困难。其次,将庞大的数据集加载到计算机内存中是不可能的,在传统单机模式下,训练和分类大规模数据的响应时间让人难以接受。本论文针对以上问题,对数据挖掘中的分类算法进行研究。主要完成了以下工作:(1)对半监督分类算法中的Co-training by Committee算法进行研究,提出改进的Co-training by Committee算法,该改进算法具有更高的分类准确率。在算法迭代过程中,为了保证加入到有标记样本集中样本的标记正确性,本论文提出使用训练完成的全部分类器预测无标记样本的类别,并引入数据编辑的方法估计样本的标记置信度。仿真结果表明,与Co-training by Committee算法相比,本论文提出的算法可以将分类准确率平均提高十个百分点左右。(2)设计算法的并行化实现方案,将改进算法部署在Hadoop分布式计算平台上。本论文选择算法中分类器的训练步骤与测试样本的分类步骤做并行化,编写相应的MapReduce程序并与整个迭代框架相结合,实现算法在Hadoop平台的部署,使得算法可以并行地运行在计算机集群上。通过利用较大规模的数据集进行仿真实验,证明本论文提出的算法仍然具有分类准确率的优势。通过在Hadoop平台上对现实生活中的网络流量数据分类,可以验证本文的算法具有实用性。本论文对数据挖掘中分类算法的研究,可以有效利用大量的无标记样本学习泛化性能较好的分类器,同时能够处理大规模的数据,具有有效性和实用性。
其他文献
本报讯 2月26日,市政府召开专题会议,研究部署招商引资工作。市委副书记、市长龚文密强调,要创新方法、改进思路,围绕大力发展战略性新兴产业、推动我市产业转型升级展开有针对性
报纸
目的探讨肾结石患者术后应用延续性护理干预对其生活方式改变依从性及术后并发症的影响。方法选取我院94例肾结石术后患者,随机将其分为常规组与延续性组,均在院内给予常规护
新三板企业如涵控股站在“网红经济”风口。在转型“网红电商”的三年里,如涵控股获得赛富亚洲、君联资本、昆仑万维、阿里巴巴等的竞相追逐,其估值在去年年底便突破了30亿元。
报纸
<正>随着全媒体时代的到来,各种不同级别、不同类型的体育赛事通过传统媒体和新媒体呈现在观众的面前。这里面既有传统热门项目,也有相当数量的冷门项目;既有对抗性强的项目,
<正>绿色和平组织和美国可口可乐公司日前在北京宣布,可口可乐公司将为北京及其他六个奥运会承办城市的所有奥运场馆捐赠"纯绿色"的冰柜等制冷设备。
"教学有法,而无定法"。"让学生走上讲台"这一语文教学策略,打破了传统意义上教师在台上传道授业、学生在台下俯身倾听的教学模式。大胆地提出"经历教育"这一理念,并从丰富学
采用浓硝酸(HNO3)氧化处理后的多壁碳纳米管(MWNTs)与丁苯橡胶(SBR)及其他配合剂在开炼机上进行混炼加工制备MWNTs 橡胶复合材料,并与炭黑补强橡胶体系进行对比,进而研究了MW
目的探讨老年卧床患者并发肺部感染的护理对策。方法选择我科收治的18例老年卧床患者并发肺部感染的病人,随机将其分为观察组和对照组,观察组病人针对其发生肺部感染的原因实
羁押必要性审查制度是在2012年刑事诉讼法修改之时确立的,作为刑事诉讼法首创的一项制度,其并非凭空产生,而是有着紧迫的现实需要和深厚的历史背景。该制度有利于填补我国逮
刑事诉讼法不仅承担着打击犯罪的职能,而且承担着保障人权的重任。然而,目前司法实践中,我国“超期羁押”的情形普遍存在,犯罪嫌疑人、被告人的人权无法得到有效保障。为解决