问答系统中关键技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:zhaogaoheng123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能成为当前学术界研究的重要领域与热点,其中自然语言处理(NLP,Natural Language Processing)技术是人工智能的重要组成部分,而问答系统是NLP技术的重要分支。伴随着互联网的普及,人们对像问答系统和智能客服系统以文字作为输入方式的信息需求只增不减,特别是5G给人们移动生活带来更多的信息需求。近年来,问答系统的各项关键技术已取得较大的进步与提高,这归功于GPU(Graphics Processing Unit)算力、数据和深度学习的成功应用。然而,问答系统返回正确答案的这种问-答交互模式难以满足人们的需要,主要表现在问句文本的理解与分析在语义信息层面存在的偏差和不准确,从而导致返回的答案不完全正确。针对以上问题,涉及对应的关键技术研究如何获得问句文本的语义信息或语义特征并在此基础上进行问句文本分类任务,及如何构建问答句(QA,Question Answer)对间的语义匹配模型。目前,机器学习和深度学习已是NLP技术的重要方法,本文通过对深度神经网络和传统的机器学习相关方法的研究,本文利用基于机器学习和深度神经网络的方法探析问答系统中所涉及的问句文本表示与分类、答案选择的关键技术研究。本文的创新点及研究成果描述如下。(1)针对问句文本分类器在小规模未标注语料下需要重复训练、不能充分利用更新特征空间的问题影响分类器的性能与分类效果,提出了基于双阈值朴素贝叶斯的问句文本分类增量算法——DTNB。首先在传统增量算法的基础上提出了一种对特征空间进行更新的改进增量算法,不仅更新了分类器相应的参数,而且优化了分类器的性能。其次在无标注语料增量样本选择上借助传统的类置信度阈值首次构建一个最小后验概率作为样本选择的双阈值方法,不仅解决了新增文本特征的选择和仅修改类先验概率的不足,而且能够起到更好的增量样本分类效果。最后提出了增量算法和增量样本选择方法的评价指标及有效量化的评价方式。实验表明,该算法不但较传统的增量算法表现出更好的增量学习能力及优于单一新增文本特征方法,而且展现了该算法的优势及分类效果得到较好的提升,即分类准确率与相比较的算法至少提升了 3%。(2)针对问句文本表示信息不完整、未充分体现前后词序列关系引起语义信息不含语境、不准确的问题,提出了基于BiLSTM和双词向量的问句文本表示与分类算法——DWEL。首先在获得问句文本词向量基础上,提出了增加词典索引和所对应词性索引的“双索引”word-embedding构造方法,接着进行拼接生成的实数向量。其次在此基础上构建了 BiLSTM+double word-embedding混合模型进一步提取问句文本特征向量,该模型不仅较好完成了问句文本自身的特征表达信息,而且获得文本当前时刻与之后时刻之间关系的上下文特征信息。因此,使特征向量含有高质量的语境信息,进一步提高了该模型的训练效率与性能。最后通过mean-pooling层处理句子向量后使用softmax层进行分类任务。实验表明,不仅证明了模型的有效性及提升了含有语境的语义特征信息能力与准确性,而且与相比较的基于机器学习的传统算法、单向LSTM和LSTM+context window模型、BiLSTM模型表现出更好的分类效果及分类准确率至少分别提升了 5%、2%和1%以上。(3)针对问句文本表示的特征学习与关键信息不足、特征提取与抽象效果偏差的问题如一词多义抽取关键词序信息等导致问句文本不能表示最佳有效性的问题,提出了基于深度BiLSTM与CNN的特征和池化的问句文本表示与分类方法——DBCTP。首先在CNN中首次提出了一种基于特征的池化combine操作方法,即对多个卷积核的卷积结果进行合并运算后再池化处理。其次提出了一种以文本n-gram特征为研究基本单位的池化CNN卷积结果的纵向卷积与横向卷积方法且在此基础上使用不同的合并方式进行特征提取的对比与分析。再次率先构建3个深度CNN模型(TB-CNN、MCT-CNN和MMCT-CNN)和一个基于CNN结合特征与池化的深度BiLSTM模型(DBCNN)。最后优化了 DBCNN模型的参数与训练性能、3个深度CNN模型中3个关键参数的具体效果分析。该方法不仅增强了特征提取及学习能力,而且改进了问句文本表示的语义特征抽象效果及提取关键信息精准度。实验表明,不仅验证了模型的有效性和提高了文本特征学习与提取能力,而且分类效果胜于传统CNN模型及与相比较的基于机器学习的传统算法、LSTM和BiLSTM模型、LSTM/BiLSTM+CNN模型的分类准确率至少分别提升5%、2%和2%。(4)针对问句与答案句文本表征局限于部分语义信息、未充分利用问答句对间关联特征权重的问题,也就是忽视问句与答案句间的关联性导致答案不准或偏差,本质是问答句对的语义相似度计算与效率的问题,提出了基于BiLSTM与注意力机制的答案选择方法——BiAM。为了获得问答句子丰富的特征向量等多种语义特征信息,分别结合及利用DTNB更新特征空间、DWEL模型、DBCTP中BiLSTM+CNN融合模型的研究成果,首先构建了基于BiLSTM与注意力机制的问答语义表示模型,并结合池化和增加额外文本特征的方法,其中注意力机制和池化操作获得丰富、合理的句子间关联特征权重信息。其次,为了改进问答句之间的语义相似度计算效率,提出了基于语义匹配的答案选择模型,并使用曼哈顿距离来计算问题与答案句间的语义相似度。最后,实验表明,不但证明该模型的有效性而且还获得了丰富的关键语义特征,优于相比较的算法,其中BiAM算法MAP和MRR指标都提升了 1%。可见,该方法提高了在答案选择任务中的答案质量与语义相似度计算效率。
其他文献
体育课程资源是在体育课程设计、实施和评价等整个课程编制过程中富有教育价值的、一切可以利用的人力、物力、自然地理资源以及其他资源的总和,本文摒弃课程资源只注重场地器
目的通过对黄淮流域居民进行间接荧光抗体试验(IFAT)调查,评价黄淮流域不同媒介地区疟疾流行水平。方法2006和2007年选择沿黄淮流域单一中华按蚊为媒介的安徽省宿州、怀远和砀山
目的 了解弓形虫能否通过精液传播,并探讨雌兔阴道不同健康状态对精液传播弓形虫的影响。方法 8只健康新西兰雄兔经腹腔分别感染1×10^5个RH株弓形虫速殖子,分别于感染前、
目的研究单孔腹腔镜与多孔腹腔镜卵巢囊肿剔除术的临床效果差异。方法选取我院临床妇科中2017年5月至2018年7月收治的70例卵巢囊肿患者开展临床观察,所有患者均成功接受卵巢