基于检索词扩展和文本表示的文库搜索引擎

来源 :长安大学 | 被引量 : 1次 | 上传用户：ironbra

【摘要】

：

信息检索是内容驱动类应用的基础,搜索结果的好坏直接影响到用户是否迅速及时取所需信息。目前,针对特定领域的垂直类搜索引擎从一定程度上满足了用户获取特定信息的需求,然

【作者】

：

杨加玉

【机构】

：

长安大学

【出处】

：

长安大学

【发表日期】

：

2017年01期

【关键词】

：

搜索引擎知识本体词向量 Lucene Dscore排序算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息检索是内容驱动类应用的基础,搜索结果的好坏直接影响到用户是否迅速及时取所需信息。目前,针对特定领域的垂直类搜索引擎从一定程度上满足了用户获取特定信息的需求,然而基于文本匹配的全文检索引擎不能从语义的角度进行检索,使得搜索结果过多依赖检索词的选取。针对以上问题,本文从知识本体之间的关系、文本的词向量表示等方面进行分析,提出了基于检索词扩展的评分排序算法,主要完成的研究和工作如下:(一)基于本体关系的检索词查询扩展方法研究。以中文维基百科为载体,从固定页面结构中抽取的数据,按照一定的规则自动构建为知识本体。将本体数据持久化至本体存储引擎后,可提供查询服务,返回本体的描述数据和具有关联关系的本体集合。本体的描述作为搜索结果的展示和补充,本体的上下位关系和关联关系作为检索词的扩展依据。(二)基于词嵌入的文本表示及相似度计算研究。使用Word2vec对中文语料数据进行训练,通过训练结果词向量判断文本之间的相似度,从而寻找检索词的相似词集。同样,将文库文档的标题向量化后按一定的原则设置权重。最后根据用户行为,实现了基于词向量线性运算的个性化文档推荐。(三)基于Lucene检索结果的Dscore排序算法。针对本文的应用场景,结合基于关联本体的检索词扩展和基于词向量的语义相似度计算等研究内容,提出检索词的扩展算法和检索结果的Dscore排序算法。对本文研究的搜索引擎进行设计和实现,同时完成了对该系统的测试和检索结果评价。本文研究成果结合具体应用场景进行转化,最终形成“打印云在线打印”项目,搜索引擎承担项目的共享文档检索任务。

其他文献

某跨国公司（AD公司）与中国分公司（上海制造厂）的物流过程再造研究

自上世纪90年代以来，随着全球经济一体化和信息技术的发展，企业之间的合作正日益加强，越来越多的跨国企业将大量常规业务外包出去，而只保留最核心的业务。期间大量的物资和信息在

学位

供应链管理过程再造准时交货信息技术

从选材视角下论析宁波市举重发展的困境

本文通过对荣华二采区10

期刊

医院管理公司对中国医疗产业发展影响分析

本文首先阐述医院管理公司的含义,探究医院管理公司对中国医疗产业发展的影响,最后提出医院管理公司的经营职能.

期刊

医院管理公司中国医疗产业影响职能

基于VDragon3000航海模拟器的BRM评估模型的研究

随着航海科技的发展,商船驾驶台的各种资源日益丰富,如何有效利用驾驶台的现有资源保障航海的安全已经是当前航海研究的热点问题。为最大限度的发挥驾驶台现有资源的作用,国

学位

驾驶台资源管理评估模糊综合评判

基于嵌入式系统的便携式微机监测仪远程数据采集系统设计与研究

目前，各种各样的新型嵌入式系统设备在应用数量上已经远远超过了通用计算机。在工业和服务领域中，使用嵌入式技术的数字机床，智能工具，工业机器人，服务机器人正在逐渐改变着传统的

学位

便携式微机监测仪嵌入式数据采集系统铁路交通

我国众创空间的发展现状和对策建议

“大众创业、万众创新”(简称“双创”)是我国政府新时期下的重要战略决策.当前,“双创”事业迎来良好发展态势,政策环境不断优化,创新创业载体发展迅速,尤其是作为新型创新

期刊

创新创业众创空间扶持政策

班主任促进科任老师和学生关系的和谐策略分析

本研究的主要目的是为班主任更好的处理科任老师与学生之间的关系提供借鉴思路,以此来帮助班主任能够更好的开展班级管理工作,承担起教书育人的重任.采取的措施分别从学生角

期刊

班主任科任老师学生沟通和谐

陶瓷铣磨电主轴热误差预测及补偿技术研究

学位

事业单位档案信息资源共享现存问题与应对之策

档案管理属于事业单位管理的组成部分之一,记录着单位发展的每个历程,做好档案管理在促单位良性发展中意义重大.但档案信息资源存在的价值就是为了得到最大化利用,而信息资源

期刊

事业单位档案信息资源共享问题对策

分析小学语文班主任实施渗透式心理健康教育

小学阶段,是学生身心成长的关键时期,对学生未来行为举止、思想品质形成影响重大.班主任利用语文学科进行心理健康教育,可以促使学生价值观、人生观、世界观形成.本文以小学

期刊

小学语文班主任心理健康教育教学理念

基于检索词扩展和文本表示的文库搜索引擎

其他学术论文