包含LDA分组特征的子空间聚类算法

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:modlong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于社交网络,即时通讯工具的普及,大量的文本数据涌入我们的生活。如何利用文本挖掘技术,从海量“堆积如山”的文本数据中更快速寻找到有价值的信息,成为各行各业的需求。文本聚类是文本挖掘的重要组成部分,如何有效的对文本大数据进行聚类一直是一个研究热点。  文本数据通常采用矢量空间模型表示。在模型中,每个文本表示成一个向量,向量中的元素表示关键词在文本中出现的频率。文本集中所有关键词的集合构成了文本集合的向量空间。文档中的关键词数以万计,而每个文档只包含部分关键词,文档向量上大部分关键词特征取值为零,造成了文本数据高维稀疏问题。加之文本数据数据量庞大,传统数据挖掘聚类方法在文本数据上面临挑战。层次聚类算法可以任意选择相似度函数,聚类效果稳定,但时间复杂度高,难以应对大数据;基于划分的聚类方法时间复杂度低,但是欧氏距离相似度在超高维稀疏性场景下失效,影响聚类精度。  针对上述问题,本文提出LDA-FG-K-Means双层软子空间文本聚类算法,可对文本数据进行有效聚类。该算法首先基于LDA模型将文本数据中的关键词依据主题进行高效分组,然后在包含分组信息的文本数据集上应用FG-K-Means算法进行聚类。为提高FG-K-Means算法对平衡文本数据集的聚类精度。本文参照Hartigan方法对FG-K-Means算法进行改进,增加对聚类簇样本数量的惩罚因子σ,并给出了新算法Balance-FGKM的参数求解过程。最后,本文将新算法与聚类集框架相结合,进一步提高新算法在文本聚类中的稳定性。实验证明,上述改进方法使文本聚类准确率显著提升。  本文主要贡献为1)将LDA主题模型运用于关键词分组,提出LDA-FG-K-Means文本聚类方法,有效解决对高维稀疏文本数据的聚类;2)改进FG-K-Means算法,提出Balance-FGKM,解决FG-K-Means在文本聚类时聚类簇样本数量失衡问题;3)提出新算法的聚类集成方法,降低了算法初始化条件对Balance-FGKM精度的影响。
其他文献
由于XML正日益成为互联网上事实上的数据存储、交换、表示的标准,因此XML的数据越来越多,传统的关系型数据库由于关系模型本身的缺陷,不能很好的表示XML这种半结构化数据,并
随着信息社会的不断发展,人们对于语音识别系统的鲁棒性提出了更高的要求。现有的语音识别系统在实验室环境下的识别率能达到较优的效果,但是在面对自然语音进行识别时往往不能
项目反应理论(ItemResponseTheory,简称IRT)是一种新兴的心理与教育测试理论。项目反应理论是在分析与克服经典测试理论的局限性的基础上发展起来的,是在批评了经典测试理论的
随着互联网和多媒体技术的发展,Web上可以共享的多媒体资源数量和种类急剧增加,基于跨媒体检索技术对用户提供多媒体信息的查询服务是近年来信息检索方面的研究热点。   跨
复杂地质构造波动方程反射地震信息建模研究,对勘探复杂储层中油气藏具有重要的意义。为了能更加准确真实地描述复杂地质构造的地震响应特性,一方面人们不断努力寻求精度高、稳
利用低成本、低功耗、多功能、体积小以及可进行短距离通信的无线传感器网络技术,得到越来越多的关注。由于无线传感器网络具有硬件资源有限、能量有限、以数据为中心、自组织
随着计算机软硬件技术的迅猛发展,互联网络、局域网络条件的大幅改善,以及IT经营意识的增强。许多企业甚至政府建立起了相对完善的IT运营体系,但是原有的IT架构无法较快地适应和
随着网络和通信设备的迅速发展,从PC到控制关键基础设施的系统都加入互联网,单个软件系统的错误可能影响多个系统,且便于攻击者利用软件漏洞进行攻击,攻击者无需占领物理的信息系
当前集群系统已经成为高性能计算体系结构发展的趋势,它极大地提高了高性能计算的发展,并逐渐从科学研究发展到其它各领域。在实际应用中,集群的软硬件资源相当丰富,这些资源
快速发展的3D应用技术给相关产业提供了难得的发展机遇,同时也提出了不少挑战性的问题。其中如三维重建一直是计算机图形学领域的一个研究热点,但鲜有研究试图重建物体的语义信