论文部分内容阅读
随着Web3.0时代的到来,互联网上产生了大量的文本数据,而基于深度学习的机器阅读理解技术在对这些文本数据进行检索时具有重要的作用。此外,机器阅读理解技术还是实现人工智能中重要的一个环节。因此,机器阅读理解近年来受到了许多学者的关注,它在给定一篇文章和提问的情况下,针对提问从文章中找出答案。在本文中,机器阅读理解任务会遇到多语言的问题,对于中文的文本数据还需要进行分词处理,我们提出了一种基于注意力机制和条件随机场的中文分词模型Attention-CRF。在使用条件随机场之后,会在分词过程中将底层模块的分词结果的转移概率纳入成本函数,使得分词结果既遵循了字符级别的原则也从全局角度考虑了文本的长程信息,最终达到机器预测答案更准确的效果。此外,本文将基于“改进的注意力机制”来设计机器阅读理解模型,针对现有的模型对文本编码能力不足的情况,我们在现有BiDAF模型的基础之上使用了一种新颖的自注意力机制来加强模型对文章的编码,提出了self-BiDAF模型,使得模型对文本的向量化表达更加准确。首先,我们会将文章和问题中的每个词转换为词向量,然后使用循环神经网络对词向量进行处理,得到具有单词间局部关系的向量表示。基于这些文章和问题的向量表示,分别计算问题到文章的注意力和文章到问题的注意力,将机器阅读理解问题分解为文章问题单词相似度计算问题。最后,我们使用自注意力机制对文本信息进行自匹配,并重新计算文本的表达向量。本文中的算法在Squad数据集以及DuReader数据集上进行了测试,测试结果显示本文算法在机器阅读理解这一任务上相较其他算法能取得更好的预测效果,如更高的精度和召回率。