基于K-means算法改进的短文本聚类研究与实现

来源 :信息技术 | 被引量 : 0次 | 上传用户:s66_ch
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文中讨论在文本类目数未知的情况下,如何对数据量过少的短文本进行有效聚类的问题。短文本的特点是每一份样本文章数据少,数据稀疏,用常规的聚类方法进行文本聚类不能取得很好的效果。文中提出了一种基于K-means的改进算法,提出一种简单降维方式和新的判别样本点距离的方法,经实验验证,文中改进算法比原K-means算法有更高的准确性。
其他文献
"中国制造2025"是未来十年我国制造业发展的指挥棒和路线图,正在引发制造业产业转型升级和生产方式变革,进而影响到职业的流动和变化,对技能人才提出更趋智能化的要求,为此构
本文针对农村教师的流动越来越频繁,而这种流动现象严重影响了农村教育事业的发展这一现状,以皖西北农村教师的流动为重点内容,对其进行了深入的分析和研究。通过调查问卷得
PM2.5不仅降低能见度,还导致多种健康危害,是评价空气质量的重要指标。本文就PM2.5的来源及来源解析方法和污染控制措施进行了详细的介绍。我国对PM2.5的监测与监管才刚刚开
党的十八届五中全会拉开了国家大数据战略的序幕,国家十三五规划对大数据作出全面布局,多个领域将面临重大发展机会。在未来,政府推动、企业拉动成为大数据发展的重要方式,而实验室建设将成为重要的落脚点。网络基础建设是发展大数据的重要条件,未来的建设速度还将加快。大数据作为各个行业淬炼出的石油,将推动经济领域出现快速变化,为产业稳步转型提供契机;也将变革权力运作方式,推动社会实现变量改革。通过打造诚信体系,
通过对河套灌区七排域明沟排水效益监测研究和对明沟运行现状,排水、排盐、侧渗情况的监测分析,表明在引黄水量逐年减少、地下水位逐年下降的新形势下,排水量逐年减少,排水任
在创新驱动发展的今天,实践创新型人才的培养是高等教育人才培养的重要目标,地方师范院校在新时期艺术人才的培养中同样需要将实践创新人才的培养作为主要目标。文章从此出发
对皮墨灌区节水工程进行了简介。
随着西安邮电大学校园一卡通数据中心项目的建成,按照西邮信息系统建设方案的要求,充分利用现有的软件资源和硬件资源,建设一套基于校园网数据中心的同城容灾系统是很有必要
在深入分析消失模铸造特点以及Flow-3D在消失模铸造仿真数学模型不足的基础之上,重建影响其传热系数的温度、压力以及负压等数学模型,运用Fortran语言编写软件代码,通过Visua
中国古代兵书所揭示的战争规律和制胜法宝,凝结着我们祖先几千年的经验和智慧,并已跨越时空而成为全人类的共同财富。其中,作为为"赢得战争"服务政治而著述的兵法战策,蕴涵着