论文部分内容阅读
垂直问答系统作为信息查询的方式,在各个领域中发挥着越来越重要的作用,但由于现如今的垂直问答系统多为单一语种,针对不同语种的人需要另行构建相应的问答系统,如果借助同一问答体系对使用不同语种人员进行服务,将会在很大程度上减轻构建系统的工作量。因此,本文在特定的垂直领域内,对该垂直领域文本进行分析,旨在构建该垂直领域内的跨语言问答系统。对文本进行答案抽取,以及多对种语言之间翻译模型地构建是跨语言问答系统的前提。本文主要针对答案抽取、机器翻译以及二者相融合系统进行相关工作地研究。具体研究内容有以下几方面:1)提出了一种叠加注意力的卷积神经网络模型的方法。在构建答案抽取的模型过程中,采用两层注意力机制,分别对文本、问题进行特征提取,然后对特征进行融合,通过在垂直领域中对文本-问题、问题-文本的二次强化学习表示,增强上下文语境的联系,实验效果有了明显地提升。2)提出了一种垂直领域机器翻译模型的方法。本文在特定领域中,对文本进行了中-英、英-中翻译模型构建,提出了一种将神经网络模型和基于规则翻译相融合的方法。构建领域对齐语料和领域用户词典,在向量层以短语和词作为基础,采用长短期记忆网络和注意力机制构建神经网络模型;采用句法分析对问题进行解析、分类,构建一个基础的翻译规则库。通过将二者进行融合,完成机器翻译工作。3)提出了一种在垂直领域中基于知识图谱知识表示的方法。通过将该领域中的实体、属性及其关系提取出来,将每个实体、属性通过关系进行连接,采用三元组的方式构建了一个领域知识表示平台,通过该平台,对答案抽取和机器翻译模型进行融合,融合后的系统将作为该领域问答系统的最终模型。实验验证,本文提出的方法是有效的。基于卷积神经网络的叠加注意力模型进行答案抽取的EM和F1值分别能达到71.2和80.2分;基于神经网络与传统规则的翻译模型可以有效的对问题进行翻译;答案抽取和翻译模型融合后的问答系统对特定领域内的问题能够使用不同语言进行准确地回答。最后,对本文存在的不足及下一步的工作研究进行了说明。