企业多业务垂直搜索引擎框架设计与实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:m123987679
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现今垂直搜索引擎技术已成为企业内部必不可少的技术支撑环节,它帮助企业为用户提供某一特定领域的信息搜索服务。但是随着企业的不断的发展,越来越多的企业从单一业务向综合业务发展,比如做在线旅游的企业会同时拥有景点门票、酒店、旅游线路、机票等业务,不同业务之间的产品特性各不相同,这样也会带来搜索的差异性,那么如何快速搭建不同业务的垂直搜索引擎成为企业内部急需解决的问题。本文基于Lucene设计并实现了一套垂直搜索引擎开发框架,从数据的提取、索引的建立、关键词搜索、数值类字段搜索、统计等功能为企业搭建垂直搜索引擎提供完整的解决方案,降低企业搭建搜索引擎的门槛,使企业内部的开发人员即使不懂搜索引擎的原理也能搭建垂直搜索引擎,同时不用担心性能问题。本人在论文中主要的工作内容和贡献如下:1、提出配置化设计方法。通过实现对不同业务的索引数据源配置、索引字段配置、分词词库配置、纠错词库配置来实现灵活、高效的业务垂直搜索引擎搭建。2、设计实现了优化的数值类字段范围搜索方法。针对数值类型的字段设计一种正排表结构,当搜索条件即包含关键词搜索又包含数值类型范围搜索时,根据关键词搜索得到的文档编号从正排表中获取对应的数值,进行条件过滤得到最终的结果,此方法较通过倒排表实现数值类范围搜索性能更优。3、设计并实现了字段统计功能。在Lucene中并没有直接实现针对字段的统计功能,本文设计并实现了基于FieldCache和Array数据结构的统计功能,保证统计性能在百万级的搜索结果内能毫秒级完成。4、提出了自动优化的查询表达式解决方案。调用方在通过查询表达式进行搜索时,不同人编写的查询表达式执行效率会各不相同,本文将通过自动分析调用方传入的查询表达式,找出执行效率差的表达式,重写成执行效率较高的表达式进行搜索。5、设计并实现了多业务引擎之间搜索逻辑共享方法。为了实现多个业务垂直搜索引擎之间搜索逻辑的共享,本论文重新设计了搜索方法,增加了路由机制,在保证各个业务垂直搜索引擎搜索逻辑独立的情况下又能实现共享。6、通过使用本文实现的搜索开发框架搭建酒店业务搜索引擎和酒店点评业务搜索引擎两个实际的案例,对本文提出的搜索算法、字段统计和查询表达式优化方法进行了性能测试,测试结果表明:数值类范围搜索较Lucene原生实现方式平均响应时间快了5到10倍;字段统计在150万的索引量下平均响应时间为25毫秒;查询表达式优化后平均响应时间位13毫秒,而优化前查询平均响应时间为3秒,效果显著。
其他文献
对混凝土管桩行业钢筋加工车间的切断机进行了改进,提出了实用性很强、性能稳定、操作方便的改进方法。
<正> 夏蚕期,气温较高,桑叶质量差,病原体数量多,蚕体极易感染病害。养好夏蚕的技术措施是:1.严格消毒夏蚕病害多,有细菌病、僵病、曲霉病、蝇蛆病等。通常对病毒性病害,每天
网络上被广为传播的四版"小龙女"让人印象深刻,分别是:正版、高仿、淘宝特卖、9块9包邮,非常形象贴切地反映出了同一款商品,不同渠道、不同质量的现实情况。尤其在近几年的"6
目的探讨芝麻素(sesamin,Ses)对代谢综合征大鼠肾病的影响。方法高脂、高糖诱导大鼠代谢综合征24wk,第9周口服含药芝麻素(120、60、30mg&#183;kg-1.d-1)和辛伐他汀(5mg&#183;kg-1&
本文初步研究了纯度为91.2%的芝麻素的抗氧化性和体外消除自由基的能力,结果表明芝麻素具有一定的抗氧化性,对DPPH&#183;、&#183;OH、O2-&#183;有消除作用,并探讨了芝麻素的
1.列入党员交纳党费计算基数的津贴补贴包括哪些收入?答:列入交纳党费计算基数的津贴补贴是指:根据国家关于规范津贴补贴的有关规定,对各地各单位干部职工普遍发放的规范津贴
反现代化与现代化两种思潮的冲突与整合、对立与统一,是中国乃至世界现代化思想发展史的规律之一;因中国现代化发轫的特殊性,近代中国的反现代化思潮表面上表现为文化优越论,内心
为了实现城乡协调和区域健康可持续发展,提高城镇化质量,新型城镇化质量评价成为学者关注的重要论题。本文以山东省17地市为研究对象,在完善评价指标体系的基础上,运用熵权法
在光谱数据的定量分析中,噪声的存在常常会影响结果的准确性。为提高红外光谱分析精度,需要对光谱数据进行去噪处理。将一种光滑阈值函数和一种分层阈值选取方法应用到提升小
对中国石油化工集团公司2010年乙烯业务相关情况进行回顾与分析,提出2011年的目标及重点工作.