基于TFIDF+LSA算法的新闻文本聚类与可视化

来源 :计算机技术与发展 | 被引量 : 1次 | 上传用户:kuba
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,文本聚类技术作为机器学习领域一种无监督学习的方法,也越来越成为数据挖掘领域备受关注的技术之一。将小规模的文本数据聚为几类,在一定程度上说是一件比较容易实现的工作。可是,当面对大量高维的中文文本数据时,由于在这种情况下对文本聚类,面对的将是高维和稀疏的数据,在保证聚类质量的情况下,提高聚类的速度和可视化效果也成为聚类研究的课题之一。该文提出一种结合词频反文档频率算法(term frequency, inverse document frequency, TFIDF)和潜在语义分析算法(latent semantic analysis, LSA)相结合的方法,来提高kmeans中文文本聚类的速度和可视化效果。将从网页上采集到的11 456条新闻作为实验对象,通过基于TFIDF聚类和基于TFIDF+LSA聚类进行实验对比,根据聚类指标轮廓系数(Silhouette coefficient, SC)、卡林斯基-原巴斯指数(Calinski-Harabasz index, CHI)和戴维斯-堡丁指数(Davies-Bouldin index, DBI)的值表明,该方法不仅能保证文本聚类的质量,还能大大提高文本聚类的速度和可视化效果。
其他文献
目的 基于CD40-CD40L系统探讨益气养阴活血通络方治疗特发性肺纤维化(IPF)的可能作用机制。方法 96只Wistar大鼠随机分为空白组、模型组、吡非尼酮组、益气养阴活血通络组,每组24只。除空白组外,其余各组大鼠采用气管内注射盐酸博来霉素制备IPF大鼠模型。造模次日吡非尼酮组采用吡非尼酮胶囊序贯方式灌胃,第1~7天给药剂量62.5 mg/(kg·d),第8~14天给药剂量125 mg/(k
目的:探究妊娠期甲状腺功能减退症患者血糖血脂水平与病情严重程度及妊娠结局的关系。方法:收集2018年8月-2021年4月本院诊治的180例妊娠期甲状腺功能减退症(甲减)患者临床资料,根据甲减严重程度分为甲减组(n=75)、亚临床甲减组(n=59)、低甲状腺素血症组(n=46),根据妊娠结局将患者分为妊娠结局良好组(n=117)、不良妊娠结局组(n=63),比较各组糖代谢[空腹血糖(FBG)、糖化血
<正>工资性收入占脱贫人口人均纯收入的近七成。面对当前务工就业的新挑战,要迎难而上,千方百计稳住脱贫人口就业饭碗,牢牢守住不发生规模性返贫的底线。来自甘肃省镇原县三岔镇石咀村的脱贫户柳亘,对现在的工作很是满意:“通过‘点对点’‘一站式’劳务输出服务,我在天津一家电动车企业找到工作,有了稳定的收入。”依托东西部协作机制,天津市打出政策、资金、服务、培训组合拳,促进中西部地区脱贫劳动力在津门稳定就业。
期刊
依据工作-家庭资源模型,基于406份两时点问卷调查获得的有效数据,探究了上级信任感知对员工创新行为的影响机制,并验证了组织自尊和工作-家庭增益以及角色超载和工作-家庭冲突的双重链式中介作用?研究表明,上级信任感知对组织自尊有显著的正向影响;组织自尊在上级信任感知与工作-家庭增益之间起部分中介作用;工作-家庭增益正向影响员工创新行为;组织自尊与工作-家庭增益在上级信任感知与员工创新行为之间起链式中介
在高职院校工商管理专业的课程教学中,实践教学体系的构建是提高专业教学质量、提升教学效果的重要条件。管理类专业只有依托积极、有效的实践教学方法,才能确保学生的专业能力素质得到全面有效地提升。互联网经济作为工商管理专业实践教学开展的重要路径,高职院校应当积极应用互联网技术和经济发展模式为院校工商管理专业的实践教学体系构建提供支持,力求取得更加显著的实践教学体系构建效果。
目的:观察维持性血液透析(MHD)患者应用活性维生素D3治疗肾性贫血的疗效及相关因素分析。方法:选择贵州医科大学附属医院和附属白云医院血透中心维持性透析的贫血患者(血清25羟维生素D3测定结果≤30ng/m L)为研究对象。共选取符合纳入和排除标准的34例患者,以自身为对照,在原治疗方案及营养条件不变的基础上给予骨化三醇0.25ug/天治疗12周。收集患者治疗前后的临床资料、血常规、生化指标等,比