基于检索词扩展和文本表示的文库搜索引擎

来源 :长安大学 | 被引量 : 1次 | 上传用户:ironbra
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索是内容驱动类应用的基础,搜索结果的好坏直接影响到用户是否迅速及时取所需信息。目前,针对特定领域的垂直类搜索引擎从一定程度上满足了用户获取特定信息的需求,然而基于文本匹配的全文检索引擎不能从语义的角度进行检索,使得搜索结果过多依赖检索词的选取。针对以上问题,本文从知识本体之间的关系、文本的词向量表示等方面进行分析,提出了基于检索词扩展的评分排序算法,主要完成的研究和工作如下:(一)基于本体关系的检索词查询扩展方法研究。以中文维基百科为载体,从固定页面结构中抽取的数据,按照一定的规则自动构建为知识本体。将本体数据持久化至本体存储引擎后,可提供查询服务,返回本体的描述数据和具有关联关系的本体集合。本体的描述作为搜索结果的展示和补充,本体的上下位关系和关联关系作为检索词的扩展依据。(二)基于词嵌入的文本表示及相似度计算研究。使用Word2vec对中文语料数据进行训练,通过训练结果词向量判断文本之间的相似度,从而寻找检索词的相似词集。同样,将文库文档的标题向量化后按一定的原则设置权重。最后根据用户行为,实现了基于词向量线性运算的个性化文档推荐。(三)基于Lucene检索结果的Dscore排序算法。针对本文的应用场景,结合基于关联本体的检索词扩展和基于词向量的语义相似度计算等研究内容,提出检索词的扩展算法和检索结果的Dscore排序算法。对本文研究的搜索引擎进行设计和实现,同时完成了对该系统的测试和检索结果评价。本文研究成果结合具体应用场景进行转化,最终形成“打印云在线打印”项目,搜索引擎承担项目的共享文档检索任务。
其他文献
自上世纪90年代以来,随着全球经济一体化和信息技术的发展,企业之间的合作正日益加强,越来越多的跨国企业将大量常规业务外包出去,而只保留最核心的业务。期间大量的物资和信息在
本文通过对荣华二采区10
期刊
本文首先阐述医院管理公司的含义,探究医院管理公司对中国医疗产业发展的影响,最后提出医院管理公司的经营职能.
随着航海科技的发展,商船驾驶台的各种资源日益丰富,如何有效利用驾驶台的现有资源保障航海的安全已经是当前航海研究的热点问题。为最大限度的发挥驾驶台现有资源的作用,国
目前,各种各样的新型嵌入式系统设备在应用数量上已经远远超过了通用计算机。在工业和服务领域中,使用嵌入式技术的数字机床,智能工具,工业机器人,服务机器人正在逐渐改变着传统的
“大众创业、万众创新”(简称“双创”)是我国政府新时期下的重要战略决策.当前,“双创”事业迎来良好发展态势,政策环境不断优化,创新创业载体发展迅速,尤其是作为新型创新
本研究的主要目的是为班主任更好的处理科任老师与学生之间的关系提供借鉴思路,以此来帮助班主任能够更好的开展班级管理工作,承担起教书育人的重任.采取的措施分别从学生角
档案管理属于事业单位管理的组成部分之一,记录着单位发展的每个历程,做好档案管理在促单位良性发展中意义重大.但档案信息资源存在的价值就是为了得到最大化利用,而信息资源
小学阶段,是学生身心成长的关键时期,对学生未来行为举止、思想品质形成影响重大.班主任利用语文学科进行心理健康教育,可以促使学生价值观、人生观、世界观形成.本文以小学