论文部分内容阅读
随着Internet技术的飞速发展,WWW已成为人们进行信息交流不可缺少的巨大的信息空间。面对如此巨大的海量信息,人们在寻找自己所需的信息时常常迷失方向。如何快速、准确的从浩瀚的信息资源中找到自己所需的信息已成为困扰用户的一大难题。本课题针对现有搜索引擎的不足,提出专题搜索引擎的解决方案,实现搜索引擎的专题化需求,并就方案中涉及到的一系列理论和技术问题进行研究,主要包括:首先,改进专题搜索引擎开发模型框架,并给出工作原理,在元搜索引擎的基础上,实现搜索引擎的专题性服务。其次,文本自动分类技术是专题搜索引擎开发的一个重要环节,针对文本自动分类中存在的不足,重点论述了对特征提取技术、特征加权技术、词干提取技术和日志分析技术的改进和完善。从而有效地保证了设计的专题搜索引擎在查全率和查准率方面的提高。然后,分词技术是专题搜索引擎的一个重要研究方面,本文在搜索引擎分词方面采用了一种基于数据视图的实用分词匹配方法,该方法实现简单,效果较好。同时,构造了专题分词词典,为用户进行检索提供了便利,提高了工作效率。最后,在分析了传统k平均聚类方法不足的基础上,提出了一种文本聚类算法,通过选取较优的初始聚类中心,为更好的进行文本聚类提供了前提条件。实验表明该聚类算法可以提高聚类的稳定性并改善聚类效果。