问答系统的答案选择算法研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:baomeng999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网迅速发展,大量的自由文本在网络上不断积累,问答系统成为了自然语言处理领域中的一个非常重要的研究方向。问答系统能够根据用户以自然语言形式进行的查询输入,对问题进行分析理解并作出快速准确的回答。由于深度学习技术的快速发展和更实用的的大型公共数据集的不断推出,问答系统的挑战性不断上升。答案选择作为其中的关键支撑技术,也成为了一个极具理论研究价值和应用前景的课题。答案选择的定义是从问题的候选答案集合中选择最合适的答案,本质上是一个文本匹配和排序任务,排序的依据是模型对问题和答案的语义匹配关系的打分。而注意力机制可以提供有效灵活的文本交互,关注到句子中的重要部分,从而成为了答案选择算法中一个不可或缺的模块。本文对问答系统中基于注意力机制的答案选择技术进行研究,主要工作如下:首先,针对项目需求调研了问答系统的相关技术,并对几种关键算法进行了理论对比和实验分析。通过分析问答系统的任务定义和几种具体的任务类型,确定了本文的主要研究内容;然后按照问答系统的流程对几种相关技术进行了调研;最后详细分析了三种用于答案选择算法的基础深度神经网络框架(Siamese结构、Attentive结构和Compare-Aggregate结构),并实现了基线系统,进行对比实验分析,为问答系统的改进奠定基础。其次,提出了一种基于多视角注意力机制的答案选择算法。论文认为问题-答案对匹配算法的核心是对文本语义的准确编码,多种注意力机制是增强语义特征表示的方式。首先通过多种注意力类型(协同注意力、自注意力)和多种注意力变体(最大池化、平均池化、软对齐)的调用来建模多角度的语义视图,从而提高语义编码的完整性和准确性;同时为了提升算法的计算效率,论文将注意力作为一种特征增强方式使用,实现多种注意力机制的可扩展调用,通过压缩函数返回标量特征,并将特征重新附加到原始的单词表示上,为后续编码层提供包含句子内部的知识和句子之间的知识的特征,改进表示学习过程。通过在事实型问答数据集(TrecQA)、开放域数据集(WikiQA)和社区问答数据集(SemEval-2016 CQA和YahooCQA)上进行实验以及消融研究,证明了多视角注意力算法的有效性。然后,进一步提出基于多层次注意力改善的联合堆叠残差匹配模型,从而实现更深层、更细粒度的问答对语义相关性匹配。一方面,模型引入了一种新的联合堆叠双向对齐机制,将成对的残差连接整合进神经模型以进行序列对匹配,通过融合文本序列对之间的所有特征层次结构来计算双向匹配打分,并缓解了由于深度增加带来的网络退化问题。另一方面,模型整合了之前提出的多视角注意力机制,将其进行多层适应和扩展,在堆叠循环编码器的每一层之后使用该机制,反复修正表示,以充分利用堆叠结构。为了证明论文提出的多层堆叠循环结构的通用性,对四个常用问答数据集进行了大量实验,发现它不仅在短文本问答数据集上表现良好,同时在长文本社区问答数据集上也打败了其他模型,实现了目前最好的效果。通过消融实验证明了联合堆叠双向对齐机制和多层次注意力改善模块对于堆叠结构的有效性,并研究了堆叠深度对模型性能的影响。最后,在一个关于日本旅游的实际落地项目中,搭建了基于联合堆叠残差匹配模型的社区问答系统。系统采用管道结构形式:首先用Lucene搜索引擎构建倒排索引,对于用户输入的查询,初步检索召回若干候选相似问题及对应答案,以提高算法效率和系统响应速率;接着通过问题相似性匹配算法进行输入查询与候选问题的匹配打分;然后通过联合堆叠残差匹配模型实现的答案选择算法进行输入查询与候选问题的对应答案的匹配打分;最后结合两个打分,返回排名最高的答案给用户。通过实验分析,这种设计不仅能够明显提升准确率,而且极大地缩短了系统响应时间,从而证明了联合堆叠残差匹配模型在实际项目中的良好表现,同时也证明了论文设计的管道系统结构用于社区问答系统的实际落地项目非常有效。
其他文献
葡聚糖蔗糖酶因为能够以低廉的蔗糖为底物,合成各种特异的低聚糖或糖基化产物,在食品、饲料、医药、美容等工业领域有着广泛的用途,逐渐发展为生物催化合成中一种重要的工具
非生物逆境会影响植物正常的生长发育,从而也影响着农作物的生产。拟南芥作为模式植物具有丰富的突变体资源和许多进行基因功能鉴定的有利条件。本研究从已有的水稻基因芯片
目的确定济川煎物质基准的制备工艺,并对济川煎物质基准进行全面质量控制,确定科学合理的济川煎物质基准的质量标准草案,为济川煎的开发研究奠定基础。方法一、建立济川煎物质基准中松果菊苷、毛蕊花糖苷、藁本内酯、柚皮苷、新橙皮苷、异阿魏酸含量的测定方法学。采用此方法,以济川煎物质基准中松果菊苷、毛蕊花糖苷、藁本内酯、柚皮苷、新橙皮苷、异阿魏酸含量的权重量为指标,对济川煎物质基准制备过程中的饮片浸泡时间、煎煮
现代生物质能源作为新一类的可再生能源,它具有资源丰富、低污染、高热值等特点,主要指经过一系列转换技术生产出高品位能源产品来代替化石燃料,其中最主要的是燃料乙醇的生
穿梭载体pHY300PLK常作为出发质粒被用于构建表达载体。我们将地衣芽孢杆菌(Bacillus licheniformis)高温a-淀粉酶基因(amy)表达单元(包括启动子、信号肽及淀粉酶基因)克隆到
随着集约化农业发展,滴灌系统于近年来呈现规模化趋势。随着系统控制面积增加,由系统水力偏差、地形偏差等引起的灌水施肥不均匀性问题凸显,可能会对我国滴灌技术的快速推广产生负面影响。评价规模化滴灌系统灌水施肥性能,辨析其关键影响因素,并提出适当的优化措施对于规模化滴灌系统的应用至关重要。本文采用田间试验评价、控制试验和模型模拟3种方法研究规模化滴灌系统灌水施肥均匀性特征,探究了毛管双向供水方式对滴灌系统
为阐明香豆素的化感抑草机理,本试验通过盆栽法测定了不同浓度香豆素在处理20 d后对一年生黑麦草株高、根长、生物量、抗氧化酶(SOD、POD和CAT)活性、渗透调节物质(可溶性糖和可溶性蛋白)、激素(IAA和ABA)含量及叶绿素荧光的影响,并选取200 mg/kg浓度分析了香豆素对一年生黑麦草根际土细菌群落和根系代谢产物的影响,以期为香豆素类化合物化感作用机制的进一步研究及其生物农药的开发提供理论依
疟疾是一种全球性的寄生虫传染病,青蒿素类药物被认为是目前最好的抗疟药物,尤其是对脑型疟疾和抗氯喹恶性疟疾疗效好。目前青蒿素的唯一来源仍是从野生黄花蒿中浸提。由于黄
芒属植物是多年生草本植物,具有生物质产量高、适应性广、投入成本低等特点,是一种极具潜力的能源植物。开发能在盐碱地、沙漠等边际土地生长的芒属种质是现在的研究重点。近
昆虫数量庞大,种类繁多,传统鉴定方法费时耗力,并且依赖于极少数的昆虫分类专家,存在鉴定周期长、工作量大、带主观偏见等缺陷。随着计算机科学的快速发展,自动识别技术因其