多策略中文会话分割与抽取方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:zgkl004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的发展,人机或者多人聊天会话的内容形式也越来越复杂,如何快速有效的获取这些会话想要表达的主题是一个值得深入探讨的问题。中文会话分割和会话抽取这两个技术近年来已经成为了新热点。在人机对话系统中,用户发送的消息上下文特别重要,因为其为对话提供了有用的背景信息,所以利用上下文可以有效地对会话进行分割。在短文本信息流会话抽取中,需要利用多种策略对多人会话进行严格分割,并对多人对话之间的短文本信息流中的内容,时间以及用户关系三类重要的特征进行研究。本文主要研究工作和创新如下:  第一、首先提出虚拟句子策略、当前句子内部策略和基于固定窗口大小的上下文语境策略,将虚拟句子策略与改进后的TextTiling算法相融合进行中文会话分割。该方法通过对会话内容噪声的观察,把用户的输入信息和机器的应答在词向量训练的时候视作虚拟句子,从而将多轮聊天的内容联系起来。实验结果表明:虚拟句子策略优于其他两种策略,能够有效地分割会话而且可以更好地利用来自会话的背景信息。然后提出最大值策略与平均值策略两种会话相似度值的表示策略。该策略将句子级别的相似度用每一个词语的最大相似度值的总和或者其平均值来表示,从而加强两个连续句子之间的交互性。实验结果表明:最大值策略的结果要优于其他两种方法,能够有效地捕获两个连续话语之间的相互作用。最后通过两种策略与改进后的TextTiling算法融合,实验结果表明,与原始的TextTiling、MMD算法以及随机分割的方法相比,融合后有较好的F-measure值,能够有效地对会话进行分割。  第二、会话抽取通常是在会话分割之后进行的,所以本文首先提出利用加权策略和平均值策略来表示会话消息之间的语义相似度的值,并对原始数据的时间、内容以及用户关系三个特征上训练和统计得到会话分割阶段的用户亲密度阈值和相邻会话时间间隔阈值,对会话进行严格地分割。然后将内容相关度与时间相关度结合成综合相关度,并利用聚类算法得到抽取结果。本文在CBOW模型和Skip-gram模型训练词向量的结果上对会话抽取结果进行对比分析。实验结果表明:在Skip-gram模型和平均值策略的融合下会话抽取方法在局部阈值上的性能要优于SPTSWKV算法。
其他文献
银行卡是集主要银行业务于一身的金融产品,有着悠久的发展历史和良好的历史数据.该文论述的如何利用数据仓库、数据挖掘工具,建立基于数据仓库技术的银行卡决策支持系统的设
现有的Ad Hoc按需路由协议在路由发现过程中仅根据路由跳数和路由Fresh程度等参数进行路由选择,而不考虑构成路由的各条链路的状态。这将增加使用潜在的不可靠路由的可能,而
空间分析是地理信息系统的基本应用需求,也是地理信息系统区别于其他管理信息系统的重要功能。在地理信息系统中,使用者往往根据不同的应用需求,向地理信息系统提出分析和查询某
主题模型(Topic Model)是一类常用的从文档集中提取隐含主题的机器学习算法。作为一个典型的概率图模型,主题模型具有整体性和优雅的优点,利用图模型的直观表达,可以容易地表达
测试是网络工程的重要内容,是确保网络健康发展的有效手段.特别是高性能网络的出现对网络技术和协议工程提出了新的要求,网络及协议必须能适应高速(Gbps级)、宽带、多媒体和
随着Internet网络技术的发展,人们广泛应用各种图象数据,如何有效、快速地检索图象成为一个迫切需要解决的课题。本文在广泛查阅国内外有关基于内容的图象检索技术CBIR(Content
学位
为低功耗SOC 体系结构设计建立其理论、方法和平台是我们的研究目标.围绕这一主题,该论文的工作主要从三个方面展开,即构建支持功耗评估的SOC体系结构设计空间搜索环境框架,
随着Internet技术的飞速发展,计算机网络的规模愈来愈大,网络应用日趋复杂。如何对分布的大型异构网络进行有效的管理,是当前网络管理面临的主要问题和挑战。 本文分析了传统
信任模型是整个安全体系的基础。本文对在线电子交易社团中的信任理解、产生和积累机制研究进行了综合分析,引入了描述在线电子交易社团信任的数学框架。对可信性呈正态分布和