基于群体智能的文本聚类技术研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:caifh8706
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着Internet的普及和发展,网络上的资源越来越丰富,以电子形式存在的文本成为人们获取信息的主要来源,面对海量的信息资源,需要对其进行有效的组织和管理,以利于主题发现和信息检索。文本聚类是一个将文本集分组的全自动处理过程,是一种无监督的分类方法,根据文本自身的特点自动分成若干类,使得同类文本的相似性尽可能大、不同类文本的相似性尽可能小。特征选择和聚类算法是文本聚类技术的重要组成部分,本文针对这两部分展开研究。  首先,针对聚类缺乏类别的信息,无监督的特征选择方法很难选择出具有区分力特征词的问题,提出了一种集成的文本聚类无监督特征选择方法,将在文本分类领域成功运用的有监督特征选择方法应用于文本聚类领域。该方法首先利用K-Means聚类算法在选择不同K值得到不同聚类结果的基础上获得类别的信息,再利用有监督的特征选择CHIR统计方法选择出最优的特征子集。  其次,针对蚁群文本聚类算法中蚂蚁移动的随机性导致散点过多、算法收敛速度较慢等问题,提出了一种基于信息素的蚁群快速文本聚类算法。该算法利用信息素控制蚂蚁随机移动的策略,使蚂蚁始终朝着信息素浓度较高的方向移动,即蚂蚁经过次数较多、文本向量相对集中的区域,缩短了蚂蚁寻找文本向量簇的时间,加快了算法的收敛速度,提高了聚类结果的准确性。  最后,利用VC++开发工具实现一个基于信息素的蚁群文本聚类算法的实验平台,通过实验对文本聚类技术研究成果进行了验证,并对聚类结果性能进行了分析,为进一步的研究提供方向。
其他文献
Web服务组合是面向服务的体系结构(Service Oriented Architecture,SOA)研究领域的热点问题。针对SOA所采用的“以服务提供商为中心”的服务组织模式容易导致用户发现和订阅
JAVA平台如今成为引领市场的潮流,J2EE是它的三个版本之一,它是一个提供企业级应用的平台,越来越多的开发者采用该平台技术,用比已往更少的投入、更短的开发周期和更少的资源来设
生物信息学是利用现代计算技术来处理和研究生物数据的一门新型交叉学科。其中,序列比对是生物信息学最基本的一个研究方法。如何获得比对质量更好、时间空间效率更高的序列比