论文部分内容阅读
信息检索是内容驱动类应用的基础,搜索结果的好坏直接影响到用户是否迅速及时取所需信息。目前,针对特定领域的垂直类搜索引擎从一定程度上满足了用户获取特定信息的需求,然而基于文本匹配的全文检索引擎不能从语义的角度进行检索,使得搜索结果过多依赖检索词的选取。针对以上问题,本文从知识本体之间的关系、文本的词向量表示等方面进行分析,提出了基于检索词扩展的评分排序算法,主要完成的研究和工作如下:(一)基于本体关系的检索词查询扩展方法研究。以中文维基百科为载体,从固定页面结构中抽取的数据,按照一定的规则自动构建为知识本体。将本体数据持久化至本体存储引擎后,可提供查询服务,返回本体的描述数据和具有关联关系的本体集合。本体的描述作为搜索结果的展示和补充,本体的上下位关系和关联关系作为检索词的扩展依据。(二)基于词嵌入的文本表示及相似度计算研究。使用Word2vec对中文语料数据进行训练,通过训练结果词向量判断文本之间的相似度,从而寻找检索词的相似词集。同样,将文库文档的标题向量化后按一定的原则设置权重。最后根据用户行为,实现了基于词向量线性运算的个性化文档推荐。(三)基于Lucene检索结果的Dscore排序算法。针对本文的应用场景,结合基于关联本体的检索词扩展和基于词向量的语义相似度计算等研究内容,提出检索词的扩展算法和检索结果的Dscore排序算法。对本文研究的搜索引擎进行设计和实现,同时完成了对该系统的测试和检索结果评价。本文研究成果结合具体应用场景进行转化,最终形成“打印云在线打印”项目,搜索引擎承担项目的共享文档检索任务。