垂直搜索引擎的研究与应用

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:zf524979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的普及和网络技术的飞速发展使人们面临一种网络信息爆炸性增长的现状,基于文本的垂直搜索引擎因其能够在海量信息中对某些特定垂直领域的信息进行快速检索的突出能力而备受搜索引擎开发人员的青睐,如何实现快速、高效、准确地垂直搜索也是一个非常活跃的研究领域。本文主要就是针对该问题开展的研究,通过对网络信息的获取、处理、检索技术进行研究,实现对网络数据的有效获取、智能抽取、快速精确检索。取得的主要成果如下:   1.垂直搜索引擎的网络信息采集器的研究与设计:用户在使用传统搜索引擎查询时,检索词可能出现在多个领域中,因而难以准确获取所需垂直领域的信息。为了解决该问题,本文提出了一种适用于垂直搜索引擎的网络信息采集器,使用内容评价搜索策略和链接分析策略结合的方法,从而大大减小检索结果的信息冗余度,使用户能够快速获取其真正需要的信息。除此之外该网络信息采集器还采用了多主体并行运行的方式,提供高效、高速的抓取服务。   2.网页信息的过滤与抽取:为了避免网页噪音数据对后续处理的干扰,本研究通过网页判别器确定网页类别,并根据分析噪音数据特点使用噪音过滤器去除网页噪音数据减少检索中冗余信息。考虑到垂直搜索针对不同的领域,本文根据网页的特点,定位Web页面的结构信息,通过解析器将Web文档解析成语法树,再通过半自动的方式产生抽取规则来实现信息抽取。   3.移动垂直搜索引擎的设计与实现:移动搜索引擎受到移动终端设备的屏幕较小、运算处理能力较差和无线带宽受限等各方面的限制,往往不能达到有效的信息检索。针对该问题,本文提出了将垂直搜索技术应用到移动搜索领域来满足移动搜索对智能化、精确度和有效性等方面的需求。本文使用网络信息采集器获取商品信息,根据商品购物网的特点运用信息抽取技术,自动提取页面中的有用信息(如商品名称、价格、图片、商品简介等),然后采用分类器将商品按照其所属的类别进行分类存储。当用户提交商品查询时,系统将商品相关信息智能地编排在一个页面内并返回给用户,提高查询的针对性和命中率。在设计过程中遇到的具体问题,如WAP服务器的建立和设置、Openwave仿真器的安装与实现、搜索页的设计与封装等等,本文都提出了相应的应对策略,并详细描述了解决方法。
其他文献
近些年来,由于因特网的迅猛发展,网络环境和分布式系统日益普及,为企业、政府、机关、学校提升信息化层次提供了良好的条件和机遇。它们纷纷开始进行信息系统的建设。诸如办公自
龙芯系列处理器是中国科学院计算所自主开发的,基于MIPS指令集的高性能通用CPU。由于指令集的限制,在龙芯处理器上运行的是基于MIPS的Linux操作系统及应用软件。龙芯处理器为了
本论文研究了超深亚微米(VDSM)层次集成电路中的瓦连寄生效应,时间延迟以及串扰噪音等互连特性。文章介绍了双大马士革集成互连结构中的多种互连寄生参数提取技术,并利用多层金
随着网络的迅速发展,搜索引擎成为了人们掌握知识的利器。但目前搜索引擎存在覆盖范围小、精度低、智能程度低和缺乏个性化等缺点,无法面对专业领域高质量的信息检索服务的要
随着数据库和计算机网络技术的广泛应用,许多大型数据都以分布式形式存储在分布的数据库中,如何从分布的数据库中挖掘有价值的知识是一个具有挑战性的研究课题。关联规则挖掘
近年来,视频技术和无线网络技术得到了飞速发展,基于无线环境的视频应用已经融入人们的日常生活当中。与传统的视频应用不同,移动视频应用中存在着信道带宽窄且波动性大、终端的
随着互联网技术的发展,大量的计算机聚合到一个逻辑的服务平台成为可能,由此产生了一个被称为网格(Grid)的新一代网络环境,构思了像电力网一样“即插即用”地从网格中得到包
近年来,随着计算机科学技术的不断发展和推广,网络传输带宽和计算机处理速度的增长,数字视频信息出现了飞速膨胀,越来越多以前靠人力完成的工作都已经被计算机所取代,视频监控技术
学位
随着网格技术和Web服务的不断融合,以服务方式对外提供计算、存储等资源成为网格发展的趋势,并为网格研究指明了广阔的前景。如何科学准确的评价基于Web服务构建的网格系统平台
本体理论属于人工智能的理论范畴,研究特定领域知识的对象分类、对象属性和对象间的关系,为领域知识的描述提供术语。它是语义Web的基础,可以有效地进行知识表示、知识查询或不
学位