垂直搜索引擎的研究和设计

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:dreamlisheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展,网络信息爆炸和人们日益增加的信息获取需求矛盾暴露出来。网络信息检索技术成为了社会研究的热点技术,其中搜索引擎技术更是蓬勃发展。本文主要对新兴出现的垂直搜索引擎进行了研究和讨论。   垂直搜索引擎是针对某一行业的搜索引擎,它使用网络蜘蛛进行数据采集,通过结构化数据,然后把数据进一步分词处理存储到数据库中去。最后再以查询的方式提供给用户所需的信息。相对于其他搜索引擎它有着“专、精、深”,的特点。本文主要讨论了目前国内垂直搜索引擎的工作原理和设计模型,并从垂直搜索引擎重要的三个方面网络蜘蛛技术,结构化数据技术,数据库技术来阐述其具体结构和相关细节。比较通用搜索引擎的不同,讨论了信息抽取和结构化数据的实施细节,通过实例展现垂直搜索引擎系统的模型,还对系统的子模块提出优化的方案,以提高系统整体性能。   本文重点对网络蜘蛛的搜索策略和实现算法进行了研究。网络蜘蛛的实现算法是基于深度搜索算法改进而来,并采用了WEB页超链分析和页面文本分析的智能搜索策略。较详细的讨论了网络蜘蛛的搜索策略和数据库维护策略,为垂直搜索引擎的两大核型模块设计提供了理论依据。   文章最后还浅谈了国内垂直搜索引擎的发展方向,并提出了垂直搜索引擎未来可能的发展模式。
其他文献
网格计算是解决科学计算和工程计算等大规模计算的非常具有潜力的下一代计算平台。为了使网格达到最大的性能,有效降低网格计算的执行时间和耗费,需要一个良好的资源调度策略来
随着嵌入式系统应用的推广,对嵌入式系统的性能要求也越来越高,高端嵌入式微处理器已经被广泛地应用,越来越多地在芯片内部集成ScratchPad存储器,提高系统性能。ScratchPad存储器
在分布式协作开发环境中进行设计工作时,要求不同的系统设计工具之间能够相互衔接与利用,完成设计任务的流程能够平滑相连。然而由于各设计工具之间的异构性,使得各个工具之
随着计算机技术的发展,三维设计引发了设计行业的巨大的变革。但是水电站设计与地形结构关联较紧密,地形地质条件多变,且电站异形设计较多,机械设备管线布置复杂,还停留在传统的二维软计制图阶段。设计成果信息表达不够生动具体,且各专业交错协调性差,信息数据易出现冗余、歧义和错误。BIM(Building Information Modeling)以建筑工程项目的各项相关信息数据作为模型的基础,进行建筑模型的
学位
当今,心脏疾病是带给人类困扰最多的疾病之一。心脏疾病具有隐蔽性和紧急性,所以心脏的运行机制以及疾病的产生原因成为研究热点。计算机是心脏研究的重要工具,计算机辅助心脏研
近年来,离散小波变换(Discrete Wavelet Transform,简称DWT)开始受到了越来越多的重视,目前已成功地应用在各种领域,包括数值分析、信号分析、影像编码、统计学和生物医学等
移动计算技术的飞速发展,使得用户通过移动客户机随时随地访问分布式数据库上的信息成为可能。然而由于移动计算环境一些特点所限(例如不可靠的通信连接、移动客户机的随意移
随着生活和工作节奏的加快,人们需要从繁杂的家庭劳动中解脱出来;同时随着全球性人口老龄化的发展,更多的老人需要照顾,为此,集清扫、娱乐、辅助等功能于一身的家庭机器人研
为了考察串联式混合动力城市公交车的动力性和经济性,应监测整车的运行情况,需要对行驶过程中车上各个部件的参数变化进行采集、分析,因此数据的采集控制对整车的监测与调试
随着Internet的不断发展,网络安全已经逐渐成为人们越来越关心的问题,而入侵检测作为一种重要的网络安全防护手段,越来越受到广大学者和工程人员的重视。入侵检测技术包括误