论文部分内容阅读
随着互联网迅速发展,大量的自由文本在网络上不断积累,问答系统成为了自然语言处理领域中的一个非常重要的研究方向。问答系统能够根据用户以自然语言形式进行的查询输入,对问题进行分析理解并作出快速准确的回答。由于深度学习技术的快速发展和更实用的的大型公共数据集的不断推出,问答系统的挑战性不断上升。答案选择作为其中的关键支撑技术,也成为了一个极具理论研究价值和应用前景的课题。答案选择的定义是从问题的候选答案集合中选择最合适的答案,本质上是一个文本匹配和排序任务,排序的依据是模型对问题和答案的语义匹配关系的打分。而注意力机制可以提供有效灵活的文本交互,关注到句子中的重要部分,从而成为了答案选择算法中一个不可或缺的模块。本文对问答系统中基于注意力机制的答案选择技术进行研究,主要工作如下:首先,针对项目需求调研了问答系统的相关技术,并对几种关键算法进行了理论对比和实验分析。通过分析问答系统的任务定义和几种具体的任务类型,确定了本文的主要研究内容;然后按照问答系统的流程对几种相关技术进行了调研;最后详细分析了三种用于答案选择算法的基础深度神经网络框架(Siamese结构、Attentive结构和Compare-Aggregate结构),并实现了基线系统,进行对比实验分析,为问答系统的改进奠定基础。其次,提出了一种基于多视角注意力机制的答案选择算法。论文认为问题-答案对匹配算法的核心是对文本语义的准确编码,多种注意力机制是增强语义特征表示的方式。首先通过多种注意力类型(协同注意力、自注意力)和多种注意力变体(最大池化、平均池化、软对齐)的调用来建模多角度的语义视图,从而提高语义编码的完整性和准确性;同时为了提升算法的计算效率,论文将注意力作为一种特征增强方式使用,实现多种注意力机制的可扩展调用,通过压缩函数返回标量特征,并将特征重新附加到原始的单词表示上,为后续编码层提供包含句子内部的知识和句子之间的知识的特征,改进表示学习过程。通过在事实型问答数据集(TrecQA)、开放域数据集(WikiQA)和社区问答数据集(SemEval-2016 CQA和YahooCQA)上进行实验以及消融研究,证明了多视角注意力算法的有效性。然后,进一步提出基于多层次注意力改善的联合堆叠残差匹配模型,从而实现更深层、更细粒度的问答对语义相关性匹配。一方面,模型引入了一种新的联合堆叠双向对齐机制,将成对的残差连接整合进神经模型以进行序列对匹配,通过融合文本序列对之间的所有特征层次结构来计算双向匹配打分,并缓解了由于深度增加带来的网络退化问题。另一方面,模型整合了之前提出的多视角注意力机制,将其进行多层适应和扩展,在堆叠循环编码器的每一层之后使用该机制,反复修正表示,以充分利用堆叠结构。为了证明论文提出的多层堆叠循环结构的通用性,对四个常用问答数据集进行了大量实验,发现它不仅在短文本问答数据集上表现良好,同时在长文本社区问答数据集上也打败了其他模型,实现了目前最好的效果。通过消融实验证明了联合堆叠双向对齐机制和多层次注意力改善模块对于堆叠结构的有效性,并研究了堆叠深度对模型性能的影响。最后,在一个关于日本旅游的实际落地项目中,搭建了基于联合堆叠残差匹配模型的社区问答系统。系统采用管道结构形式:首先用Lucene搜索引擎构建倒排索引,对于用户输入的查询,初步检索召回若干候选相似问题及对应答案,以提高算法效率和系统响应速率;接着通过问题相似性匹配算法进行输入查询与候选问题的匹配打分;然后通过联合堆叠残差匹配模型实现的答案选择算法进行输入查询与候选问题的对应答案的匹配打分;最后结合两个打分,返回排名最高的答案给用户。通过实验分析,这种设计不仅能够明显提升准确率,而且极大地缩短了系统响应时间,从而证明了联合堆叠残差匹配模型在实际项目中的良好表现,同时也证明了论文设计的管道系统结构用于社区问答系统的实际落地项目非常有效。