论文部分内容阅读
文本挖掘是指在大量文本集合或语料库上发现隐含的、有趣的、有用的模式和知识.文本挖掘的出现,使得计算机处理大规模文本资源特别是网页资源成为可能,对文本的处理,在信息检索等领域有着广阔的应用前景.该文将研究作为文本挖掘的重要手段和数据挖掘重要分支的文本聚类(TextClustering),研究重点是基于概念的中文文本聚类.基于概念的文本聚类(Text ClusteringBased on Concept)是在给定概念空间的基础上,结合概念映射、概念消歧策略、聚类策略,并引入传统的聚类算法思想实现的文本聚类.基于概念的文本聚类有助于加强同一类别文本的聚合能力.在该文的研究中,采用两条路线,其一是引入知网这一本体论的概念属性体系进行基于概念属性的文本聚类的研究,其二是基于概念层次进行文本聚类的研究.首先,该文提出了一种基于概念属性的中文文本聚类方法(CBCA).引入知网这一本体论的概念属性体系,着重研究了文本的概念属性特征表示策略、词义消歧策略及聚类策略,同时生成簇核心词集作为文档簇的描述性标注.其次,该文研究了基于概念层次的中文文本聚类(CBCH).我们组织一个中文概念分类词典——中文主题分类词典CTCD,提出一个基于关联规则的中文概念集生成算法,并应用该算法来实现对中文主题分类词典CTCD的训练式增量更新.在中文主题分类词典的基础上研究中文文本聚类,主要包括文本的概念层次特征表示策略以及概念消歧、概念标注、聚类策略,发现并验证基于概念层次的文本聚类方法的最佳策略.然后,该文根据目前比较通用的聚类结果质量评价指标,包括平均信息量(Entropy)、纯净度(Purity)等外部质量评价指标对聚类结果质量作出综合评价分析,给出以上两种基于概念的文本聚类方法以及传统的基于词集的文本聚类方法的聚类质量和效率分析.最后,该文详细阐述了基于概念的文本聚类技术在信息检索系统中的实际应用,并介绍了应用文本聚类技术的一个Web信息检索系统——互联网竞争情报监测系统.该文的特色和主要贡献:1)提出了一种基于概念属性的中文文本聚类方法——引入知网概念属性体系进行文本聚类;2)设计并构造了一个中文概念层次词典——中文主题分类词典CTCD,并给出词典的增量更新算法;3)研究了基于概念层次的中文文本聚类方法;4)研究了基于概念的递增式文本聚类算法在互联网竞争情报监测系统中的实际应用.该文研究的基于概念的中文文本聚类方法,无论是聚类质量还是聚类效率都优于传统的文本聚类方法,具有一定的意义和应用价值.