文本聚类分析若干问题研究

被引量 : 0次 | 上传用户:Henkel_liu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对大规模的、高维的文本数据,如何建立有效的、可扩展的文本聚类算法是数据挖掘领域的研究热点。针对这些问题,本文对文本聚类分析所涉及的若干问题进行了较深入的研究,主要包括如下几个方面:提出了一种基于投影寻踪的文本聚类新算法,该方法利用遗传算法寻找最优投影方向,将文本特征空间投影到一维空间上,从而以直观的方式显示出数据的结构特征,实现文本聚类分析的可视化。针对文本特征向量维数高和k-means等方法需要预先确定聚类数的问题。提出了基于LSA、CI、RP及NMF的RPCL文本聚类算法,先运用LSA等方法对文本特征矩阵进行降维处理,再运用RPCL算法进行文本聚类,这些新方法不仅可以有效地降维,还可克服k-means等方法需要预先确定聚类数的困难。基于向量空间模型,提出了一种基于双词关联的文本特征选择新模型,这种模型在向量空间模型的基础上,增加了文本的双词关联信息,使得向量空间模型中所包含的文本特征信息更加丰富、更加准确,结合隐含语义分析方法降维后,不仅有效地降低了维数,还进一步减少噪声凸现文本的语义特征,从而提高文本挖掘的质量。基于文档标引图特征模型,提出了一种新的基于短语的相似度计算方法,并采用变换函数对文档相似度值进行调整以使其获得了更好的可区分特性,从而更加有利于文本的聚类分析、分类等处理。将基于后缀树的聚类方法用于中文文本聚类中,这种方法将文本看成是一些短语的集合,通过后缀表达文本的相似关系,实现文本聚类。这种方法可以解决多主题的文本聚类问题,并克服了k-means等硬聚类算法将文本严格划分类问题,实现文本的软聚类。
其他文献
目的观察腹腔镜全子宫切除术和腹腔镜辅助阴式全子宫切除术后对患者盆底功能的影响。方法回顾性分析2007年10月至2013年1月在中山大学附属第三医院行子宫切除术的患者94例,其
近年来,以稀土激活的长余辉发光材料为基体发展起来的表面包覆技术由于在材料改性和新功能性质的附加方面具有突出的特点而得到广泛的研究和应用。其中制备化学键连接的有机/
<正>作为环境公益诉讼的适格主体,中华环保联合会对环保法庭的建设一直高度关注。多年来,各地在司法实践中越来越发现对环境维权案件的审理难以准确把握。因此,许多地区成立
从实践经验与理论结合的角度,分析了桥梁上部养护与维修的重要性,并提出了对于桥梁上部有效的维修方法和维修步骤.
在警力资源有限与出入境人数日益增长的背景下,人工智能与大数据技术的快速发展为实现我国边防检查由传统的人力管控向新型科技管控提供了重要帮助。然而,目前我国在大数据与
本文针对当今建筑越来越怪异、看似不可理解的趋向,选取具有代表性的日本建筑师伊东丰雄作为切入点,对其不同时期作品分别从形式、空间、场所等多方面加以分析与归纳,指出这
<正>随着新课程改革的不断深入,传统的评价观已越来越不适应新课改的实施。在语文教学中,教师往往只关心教学内容有没有按时完成,而忽略了学生的参与情况和学习状态。教师仍
佛教东渐 ,冥界地狱说亦随之传入 ,并与中土固有冥界观交汇互融。本文对隋唐五代小说中的冥界描写进行了全面、细致的考察 ,并结合汉译佛典对冥界的论述 ,系统地阐释了中土冥
《论语集注》是《四书章句集注》的一部分,是朱熹经过40多年的用心“理会”,并“逐字称等”后,才最终写定的经典之作。其注释特点有三:第一,以程氏之学为主,兼采时人之说;第