基于概念的中文文本聚类的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:lilinli2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本挖掘是指在大量文本集合或语料库上发现隐含的、有趣的、有用的模式和知识.文本挖掘的出现,使得计算机处理大规模文本资源特别是网页资源成为可能,对文本的处理,在信息检索等领域有着广阔的应用前景.该文将研究作为文本挖掘的重要手段和数据挖掘重要分支的文本聚类(TextClustering),研究重点是基于概念的中文文本聚类.基于概念的文本聚类(Text ClusteringBased on Concept)是在给定概念空间的基础上,结合概念映射、概念消歧策略、聚类策略,并引入传统的聚类算法思想实现的文本聚类.基于概念的文本聚类有助于加强同一类别文本的聚合能力.在该文的研究中,采用两条路线,其一是引入知网这一本体论的概念属性体系进行基于概念属性的文本聚类的研究,其二是基于概念层次进行文本聚类的研究.首先,该文提出了一种基于概念属性的中文文本聚类方法(CBCA).引入知网这一本体论的概念属性体系,着重研究了文本的概念属性特征表示策略、词义消歧策略及聚类策略,同时生成簇核心词集作为文档簇的描述性标注.其次,该文研究了基于概念层次的中文文本聚类(CBCH).我们组织一个中文概念分类词典——中文主题分类词典CTCD,提出一个基于关联规则的中文概念集生成算法,并应用该算法来实现对中文主题分类词典CTCD的训练式增量更新.在中文主题分类词典的基础上研究中文文本聚类,主要包括文本的概念层次特征表示策略以及概念消歧、概念标注、聚类策略,发现并验证基于概念层次的文本聚类方法的最佳策略.然后,该文根据目前比较通用的聚类结果质量评价指标,包括平均信息量(Entropy)、纯净度(Purity)等外部质量评价指标对聚类结果质量作出综合评价分析,给出以上两种基于概念的文本聚类方法以及传统的基于词集的文本聚类方法的聚类质量和效率分析.最后,该文详细阐述了基于概念的文本聚类技术在信息检索系统中的实际应用,并介绍了应用文本聚类技术的一个Web信息检索系统——互联网竞争情报监测系统.该文的特色和主要贡献:1)提出了一种基于概念属性的中文文本聚类方法——引入知网概念属性体系进行文本聚类;2)设计并构造了一个中文概念层次词典——中文主题分类词典CTCD,并给出词典的增量更新算法;3)研究了基于概念层次的中文文本聚类方法;4)研究了基于概念的递增式文本聚类算法在互联网竞争情报监测系统中的实际应用.该文研究的基于概念的中文文本聚类方法,无论是聚类质量还是聚类效率都优于传统的文本聚类方法,具有一定的意义和应用价值.
其他文献
随着信息技术的飞速发展,特别是互联网的迅速普及和3C(计算机、通讯、消费电子)合一的加速,迎来了后PC时代,嵌入式接入设备正在成为后PC时代的一大主流产品.面对嵌入式系统工
搜索引擎至少有三个因素值得重视:数据库,用户查询和搜索结果排序.传统搜索引擎的用户查询一般都是基于关键字查询设计的,因此,搜索结果的排序不可避免的被打上词频统计的烙
随着网格概念与技术的发展,越来越多的研究工作者加入其中,希望网格能在各种领域发挥其资源共享,组织协作等特点.尤其在科学计算领域,众多的研究人员和研究项目都涉及到网格.
由于Web应用已经成为在Internet上最为广泛的应用之一,因此,针对Web应用的攻击行为也随之越来越多.为了避免这些攻击行为给Web应用带来的危害,很多针对Web应用的安全保护措施
虚拟场景中,动态不规则景物特有的动态性与随机性特点在烘托场景氛围,增强灵动性效果方面起着至关重要的作用。在传统静态景物建模过程中,通过一种或几种基本几何图元就可以构建
随着网络通信和高新技术的发展,图书馆的建设取得了巨大的进步,数字图书馆正在逐步成为现实.该文就数字图书馆展开讨论,重点针对数字图书馆的海量数据存储问题提出解决方案.
随着数据库技术的日益发展,以及在商业领域的广泛应用,用户对于数据共享的需求越来越强烈,如何保证这些数据的安全使用,成为一个十分重要的问题.一方面,这就要求数据库管理系
随着计算机网络的发展,安全问题日益突出.在现有的安全攻击中,通过缓冲区溢出进行的攻击占到80﹪以上,近年来更有种类增多、危害增大的趋势.现有的缓冲区溢出检测技术大多针对L
在计算机的普及和互联网的推动下,信息技术在人们生活中的地位日趋重要。信息技术给人们工作和生活带来了便利的同时,也引发越来越多的安全隐患,正因为如此,信息安全问题逐渐得到
软件技术的发展趋势之一是构建出平台独立的软件构件,现阶段,Web Services正在不断实现着这一目标.不远的未来,它们将广泛地存在于INTERNET分布式环境中,那时,新应用系统的生