一种新型搜索引擎查询词分检器的设计及实现

来源 :中国科学院研究生院(本部) 中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:yingyingpps
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,Web上的网页数据量成几何级数的增长。为了更快更准确的找到最需要的信息,人们越来越依赖于搜索引擎系统。尽管各大搜索网站不断的改进搜索引擎技术,但是搜索结果往往还是不能满足用户的需要,结果的相关度仍然需要进一步的提高。搜索引擎查询词分检器技术正是最合适商业应用的提高搜索相关度的技术之一,它会自动的将用户搜索的查询词进行分类,并且将这个分类返回给搜索引擎,让搜索引擎根据查询词与其分类进行更有针对性的搜索,通过这样的方法提高搜索结果的相关度。   当前的查询词分检器技术主要有两个种,一种是基于搜索目录的分检器,一种是基于语料学习的分检器。这两种方法在分检的准确性、灵活性和所需的人力投入方面都不能满足商业应用的要求。本文结合了这两种技术,提出一种全新的搜索引擎查询词分检器设计,设计的目标是力求在分检的准确性和速度方面做到飞跃,将分检过程中的手动工作最大限度的自动化,尽可能的减少人力的投入。   论文的主要工作如下:   一,设计并实现了一种新型的查询词分检器架构,它是一种集成了搜索目录映射、垂直搜索日志分析、机器语料学习的多元化查询词分检系统,分别对不同查询频率的词汇进行分检。这种系统效率高、扩展性好,足以应对商用搜索引擎的需求变化。   二,改进了基于搜索目录的分检技术。使用“搜索”的方法产生动态搜索目录映射结构,该动态结构不但支持自动更新优化,还将人力投入降低到了最少,当分检的目标类别增加或改变时,分检器可以灵活快速的做出响应。   三,实现了一种自动生成海量分类学习语料的方法。只需要准备少量已分类词汇做为种子,通过在搜索日志中不断迭代计算,慢慢将种子库扩大以至完成机器学习语料的自动化准备,将原来由人做的工作变由计算机自动完成。   经实际测试,该分检器的分检准确性与分检覆盖率比传统分检系统提高了90%,却没有增加额外的人力投入。它并不是仅仅停留在论文的学术研究层面上,而是真正的投入了商业应用。雅虎香港(yahoo HK)的搜索服务正因为查询词分检器的介入变得更加人性化,分检器提升了搜索结果的相关度,给用户带来完全不同的搜索体验。
其他文献
随着网络技术和信息产业的飞速发展,数字信息资源已经成为人们主要的交流介质之一。数字信息资源安全使用、合法使用等方面的威胁也日益明显。数字信息资源的安全性和合法性,已
学位
随着经济体制改革的深化,经营管理模式发生了根本地变化。竞争的焦点也从资金、物质资源的竞争转为人才资源的竞争。人事管理已成为经营管理的重要内容。 在传统的人事管理
USB接口具有高速稳定、支持热插拔、功耗小的优点。其实用性使得USB接口得到了广泛应用。但是USB协议的复杂性使得USB接口的设计具有相当的难度。本文给出的基于EZ-USB FX2LP
随着计算机科学和通信技术的飞速发展,传统PSTN(Public Switch Telephone Network公共电话交换网)网络上的语音业务将逐步迁移到IP网络上。VoIP技术为基于IP网络的语音通信提
干涉合成孔径雷达(Interferometric Synthetic Aperture Radar,简称InSAR)获取地表的高程信息和形变信息己经在地形测绘、地震火山监测、地表沉降和冰川移动等多个领域得到了
学位
面向服务的体系架构(Service-OrientedArchitecture,SOA)已经成为计算机软件的主要发展趋势。Web服务(Web Service)是目前SOA的主要实现方式。它定义了松散耦合的软件框架以及
学位
当前的互联网络路由算法主要针对尽力发送(best-effort)和基于服务质量(Quality ofService Based)两种数据传输模型,路由的设计正是基于现有的网络数据传输模型来考虑,以如何保
近四十年来,基于生物特征的身份识别技术得到了研究者们的广泛关注和深入研究。综合考虑可识别性和易采集性,目前在实际中被广泛应用的生物特征识别技术主要包括虹膜识别技术、
随着Web2.0的发展,微博、社交网站、博客等社交类网络应用已融人人们社会生活的方方面面。社交网络的一个突出特点是个体间相对静态的网络结构和具有动态性、时效性的个体信息
机群数据库系统成为大容量数据处理密集系统的有效载体,其应用范围越来越广、系统规模越来越大。本文以国家网络安全监测系统中对大规模机群数据库系统的需求出发,总结了其对机