专题搜索引擎关键技术的研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:gwzdx1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的飞速发展,WWW已成为人们进行信息交流不可缺少的巨大的信息空间。面对如此巨大的海量信息,人们在寻找自己所需的信息时常常迷失方向。如何快速、准确的从浩瀚的信息资源中找到自己所需的信息已成为困扰用户的一大难题。本课题针对现有搜索引擎的不足,提出专题搜索引擎的解决方案,实现搜索引擎的专题化需求,并就方案中涉及到的一系列理论和技术问题进行研究,主要包括:首先,改进专题搜索引擎开发模型框架,并给出工作原理,在元搜索引擎的基础上,实现搜索引擎的专题性服务。其次,文本自动分类技术是专题搜索引擎开发的一个重要环节,针对文本自动分类中存在的不足,重点论述了对特征提取技术、特征加权技术、词干提取技术和日志分析技术的改进和完善。从而有效地保证了设计的专题搜索引擎在查全率和查准率方面的提高。然后,分词技术是专题搜索引擎的一个重要研究方面,本文在搜索引擎分词方面采用了一种基于数据视图的实用分词匹配方法,该方法实现简单,效果较好。同时,构造了专题分词词典,为用户进行检索提供了便利,提高了工作效率。最后,在分析了传统k平均聚类方法不足的基础上,提出了一种文本聚类算法,通过选取较优的初始聚类中心,为更好的进行文本聚类提供了前提条件。实验表明该聚类算法可以提高聚类的稳定性并改善聚类效果。
其他文献
随着网络技术的飞速发展,新的网络协议及应用不断涌现,网络设备对性能和灵活性的要求也越来越高。传统的基于通用处理器及专用集成电路的网络处理方式逐渐暴露出种种弊端,一种基
随着计算机和通信技术的不断融合,计算机网络已经成为一种基础设施而遍及社会生活的每个角落。从最初的ARPANET到今天的Internet,网络规模不断扩大;从简单的文件共享到目前的电
数字作品具有很多优点,包括易于制作和复制、有效的存储以及快速和低成本的分发。这些优点使得内容生产和分发的费用和时间显著的减少,为内容提供商带来了新的商业机会。尽管数
在信息化时代里,数据存储量与日俱增,为了从这些看似毫无规律的数据中得到有价值的资料,数据挖掘技术应时而生,在近一个多世纪中,它得到了飞速的发展,且在诸多领域中应用越来越普遍
网络化和数字化的迅猛发展,在方便人们对多媒体信息使用的同时,也使非法者有机可乘,由此引发了日益严重的信息安全和版权保护等社会问题,所以人们希望有一种有效的科技手段来解决
入侵检测技术是一种主动保护自己免受攻击的一种网络安全技术。作为防火墙的合理补充,入侵检测技术能够帮助系统对付网络攻击,扩展了系统管理员的安全管理能力(包括安全审计
WebGIS是Internet技术与GIS相结合的产物,WebGIS为公众获取GIS数据和地理信息服务提供了一个有效的工具。在目前的地理信息相关的系统软件开发中已经大量的运用了WebGIS模式。
本文对三维雕刻机的远程控制技术的实现进行了研究。文章以三维雕刻机的远程控制为主要研究对象,考虑到传统的网络控制系统在实时性方面存在不足,通过在本地建立三维雕刻机虚拟
基于在旋律检索机制、旋律匹配高速化算法以及旋律模型鲁棒性建模研究方面已取得了一定的成绩,本文的成果将为基于内容的大规模音乐检索提供新的理论模型以及系统实现技术,从而
近年来,随着Web服务技术的迅猛发展,Web正在由可浏览的信息资源的集合发展成为可以进行互操作的Web服务的集合。基于Web的商务应用为客户提供了不同类型的Web服务,因此进行We