【摘 要】
:
科学技术的发展日新月异,人们与互联网的联系越来越紧密,随着智能设备的普及,人们在使用智能设备的过程中不断产生大量的文本数据,如何从这些文本数据中汲取我们所需的信息,
论文部分内容阅读
科学技术的发展日新月异,人们与互联网的联系越来越紧密,随着智能设备的普及,人们在使用智能设备的过程中不断产生大量的文本数据,如何从这些文本数据中汲取我们所需的信息,是当前文本信息挖掘的热点,而文本聚类是文本挖掘信息领域的研究重点,而文本标记的关键基础又是文本聚类,与此同时,文本聚类技术又是自然语言处理技术的最基础技术,在文本聚类领域,困难主要可以概括为以下三点:第一,聚类的结果与客观使用需求的匹配;第二,聚类的结果的描述问题;第三,文本聚类结果的有效性评估问题。本文综合讨论以上三点,提出了基于统计学习方法的高斯LDA主题模型的文本聚类方法。本文主要在以下三个方面进行了相关工作:第一,针对国内外相关研究进行了详细的对比研究和综述,并指出现阶段研究的优势及不足。第二,将词向量模型以文本扩展的形式引入,对LDA模型的先验信息进行改进,引入高斯LDA模型,将潜在主题特征知识融入词向量空间,深层次挖掘出文本内部语义知识,提高文本聚类质量,并在Python下实现了高斯LDA模型。第三,利用基于统计学习方法高斯LDA模型,结合文本相关主题词及主题的概率分布情况,以及词向量模型,提出了一种基于词向量语义相似度的聚类结果评价方法。中英文语料上的试验结果对比分析显示,本文方法相对于传统的LDA以及传统的高斯LDA模型,聚类有效性有了一定的提升,且基于主题词对主题的描述较为清晰,从而验证了基于统计方法的改良高斯LDA模型的文本聚类方法的有效性。
其他文献
针对煤层底板中较难确定的导高带,为了对其导升机制有比较深入的认识,研究了导高带中岩体裂隙的形成及扩展。结果表明:原始裂隙的形成的深度非常有限,这主要与承压水的大小有
Abstract Intelligent transportation system (ITS) is proposed as the most effective way to improve road safety and traffic efficiency. However, the future of ITS for large scale transportation infrastr
随着我国经济的不断发展,各行各业的合作交流也逐渐增多,作为提高全国人民素养的公共图书馆,深受社会群众与国家的重视.公共图书馆是国家政府为群众提供的开放阅读场地,公共
噪声在自然界中广泛存在,通常会对有用信号或信息产生随机干扰,它反映了微观运动对宏观变量演化过程的杂乱无规作用。通常情况下噪声被认为是消极有害的干扰,然而通过研究噪声对
“曹氏风筝工艺”融民间文化、宫廷艺术、南北扎制技术的精华于一体,形成了独特的风格。其制作流程为:扎、糊、绘、放,工艺具有独到之处。其技艺保存了21首扎制口诀及20种制
公共图书馆核心工作理念在于为读者服务,促进全民阅读工作的优化开展.因此在公共图书馆开展人力资源管理工作的过程中,要树立服务至上的工作理念,对人力资源管理和服务工作进
<正>为了让党建更好融入企业中心工作,让党支部建设与安全生产工作有效融合,并在安全工作中发挥作用,国网吉林四平供电公司充分发挥央企"六个力量",不断转变新观念,谋求新思
荣获1998年诺贝尔生理学或医学奖是我职业生涯中的难忘时刻,我受很多国家政府的邀请做过专题报告,跟很多国家的医疗机构都有广泛而又密切的联系,这使得我能接触到全世界各个