论文部分内容阅读
随着Internet的飞速发展,Web上的网页数据量成几何级数的增长。为了更快更准确的找到最需要的信息,人们越来越依赖于搜索引擎系统。尽管各大搜索网站不断的改进搜索引擎技术,但是搜索结果往往还是不能满足用户的需要,结果的相关度仍然需要进一步的提高。搜索引擎查询词分检器技术正是最合适商业应用的提高搜索相关度的技术之一,它会自动的将用户搜索的查询词进行分类,并且将这个分类返回给搜索引擎,让搜索引擎根据查询词与其分类进行更有针对性的搜索,通过这样的方法提高搜索结果的相关度。
当前的查询词分检器技术主要有两个种,一种是基于搜索目录的分检器,一种是基于语料学习的分检器。这两种方法在分检的准确性、灵活性和所需的人力投入方面都不能满足商业应用的要求。本文结合了这两种技术,提出一种全新的搜索引擎查询词分检器设计,设计的目标是力求在分检的准确性和速度方面做到飞跃,将分检过程中的手动工作最大限度的自动化,尽可能的减少人力的投入。
论文的主要工作如下:
一,设计并实现了一种新型的查询词分检器架构,它是一种集成了搜索目录映射、垂直搜索日志分析、机器语料学习的多元化查询词分检系统,分别对不同查询频率的词汇进行分检。这种系统效率高、扩展性好,足以应对商用搜索引擎的需求变化。
二,改进了基于搜索目录的分检技术。使用“搜索”的方法产生动态搜索目录映射结构,该动态结构不但支持自动更新优化,还将人力投入降低到了最少,当分检的目标类别增加或改变时,分检器可以灵活快速的做出响应。
三,实现了一种自动生成海量分类学习语料的方法。只需要准备少量已分类词汇做为种子,通过在搜索日志中不断迭代计算,慢慢将种子库扩大以至完成机器学习语料的自动化准备,将原来由人做的工作变由计算机自动完成。
经实际测试,该分检器的分检准确性与分检覆盖率比传统分检系统提高了90%,却没有增加额外的人力投入。它并不是仅仅停留在论文的学术研究层面上,而是真正的投入了商业应用。雅虎香港(yahoo HK)的搜索服务正因为查询词分检器的介入变得更加人性化,分检器提升了搜索结果的相关度,给用户带来完全不同的搜索体验。