论文部分内容阅读
目前人们对于智能对话系统的研究越来越多,很多企业在尝试构建符合自己业务场景及需求的对话系统。智能对话系统在电商领域、智能家居等领域具有广泛应用,其与现有的电子设备及服务相结合,在理解人们语义的情况下,可以极大程度地丰富人们的生活。在用户画像方面,用户在互联网上产生的信息越来越多,从中可以挖掘出用户的很多属性及标签,这些信息具有极大的商业价值同时也对改进用户身边众多产品具有重要作用。本文着重研究问答型及闲聊型两类对话系统,并将用户画像中的用户属性分类模型与闲聊型对话系统相结合,提高对话的流畅性与多样性。对于问答型对话任务,本文提出了基于问题相似度匹配的两级模型。首先设计了一种结合同义词的检索模型来完成第一级检索任务,为次级模型提供可靠的高质量候选集,提高系统运行速度,同义词的加入也提高了模型检索问题的数量;然后构建多种相似度特征,提出了一种融合多种词表示及问题关键词信息的Attention网络模型完成第二级的问题相似度匹配任务。本文在人工构建的医疗问答数据集上进行了测试,实验表明,与传统逻辑回归模型、排序学习模型及常用深度学习模型相比,在输出答案的准确率及MAP值上均有提升。对于问答型对话系统中问答库难以收集的问题,本文也提出了一种半监督式的标准问题库构建方法,提高模型实用性。对于用户画像中的用户属性分类任务,本文提出了一种基于Attention的神经网络模型,可以在不依赖人工构建特征的情况下,完成用户不同属性的分类。对于与社交关系相关的用户属性,本文模型将文本信息与社交关系信息相结合,提高模型效果。实验表明,在SMP CUP 2016的评测数据集中,本文模型在用户性别、年龄及地域三个属性的分类任务中超越了评测的最优结果,提升了分类的准确率。对于闲聊型对话任务,本文提出了一种基于用户属性的生成式对话模型。在EncoderDecoder结构的基础上,本文将用户属性分类模型产生的地域分布向量,增加到对话生成模型编解码的过程中,使对话模型能够学习到用户的地域信息,根据不同的地域分布向量,生成更具地域特色的回答。其中的编解码阶段均采用层级式的LSTM结构并结合Attention机制。在对话生成的过程中,采用Beam Search的方法提高对话的质量。本文在400万条微博评论语料上进行了训练,并与其他神经对话模型进行了对比,展示了多条回答示例及多样性指标,实验表明,本文模型有助于提高生成对话的流畅性及多样性。