鲁棒的语义角色标注方法研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:smilezhangnan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义角色标注是一种浅层语义分析技术。它以句子为单位,不对句子所包含的语义信息进行深入的分析,而只分析句子的谓词—论元结构。语义角色标注能够为信息抽取、问答系统、以及机器翻译等任务提供有用的语义分析结果。然而在实际应用中,语义角色标注技术的鲁棒性(Robustness)比较差:只有在范围很小的特定语料上才能得到比较好的结果;在一般语料上的分析结果很差。造成这种现象的主要原因有:   第一,由于语义角色标注要用到句法分析,所以对句法分析结果的依赖性非常大,而目前句法分析的效果并不十分理想。   第二,语义角色标注在领域外(Out-of-domain)的测试数据上性能下降太大。在研究中最常用的命题库(PropBank)语料大部分来自于《华尔街日报》(Wall Street Journal,WSJ)的经济类新闻,在非经济类新闻的测试数据上,语义角色标注的准确率下降非常大。   此外,由于语义角色标注的训练数据非常有限,所以引入更多的语言知识来帮助语义角色标注就显得非常重要。因此,如何利用更多的语言知识来提高语义角色标注的鲁棒性也是一个需要研究的问题。   本文以提高语义角色标注的鲁棒性为目标,针对上述语义角色标注所面临的问题,从三个方面展开了研究:   1.提出了一种最小错误加权的融合策略来减小语义角色标注对句法分析的依赖。系统融合能够减小句法分析错误对语义角色标注的影响。传统的融合方法将各个被融合系统的结果同等对待。而实际上总体结果好的系统更值得信赖。因此,本文提出了一种最小错误加权的融合策略。该策略为不同系统的结果设置不同的权重,并且通过在开发集上最小化一个错误函数来训练这些权重。本文给出了训练最小错误权重的方法,该方法适用于多种形式的错误函数。使用最小错误加权融合策略,本文在汉语命题库(Chinese PropBank)数据集上取得了目前最好的语义角色标注结果。   2.提出了基于深层信念网(Deep Belief Network,DBN)的隐含特征表示模型来提高语义角色标注在领域外测试数据上的性能。由于语义角色标注对句法分析的依赖,要提高语义角色标注的领域外测试性能,必须同时提高句法分析的领域外测试性能。目前许多句法分析和语义角色标注方法都使用判别式模型进行决策。在判别式模型中,每一个数据样本都表示为一个特征向量。而领域外测试性能下降主要是由特征的稀疏性造成的:有许多在目标领域测试数据中出现的特征在源领域的训练数据中很少出现。本文的DBN模型的目标是自动学习一种源领域和目标领域之间公共的特征表示,使得在该特征表示下,两个领域的数据显得更为相似。本文的DBN模型是一个包含两层隐含变量的图模型。对于每一个数据样本,该模型都会将其表示为一组隐含特征。本文用这种隐含特征来训练和测试依存句法分析和语义角色标注系统。实验结果表明,这样得到的依存句法分析和语义角色标注系统能够更好地适应目标领域。本文的DBN模型为依存语法分析和语义角色标注提供了一种统一的领域适应方法。   3.研究了如何利用双语的信息来帮助语义角色标注。双语的语义角色标注在机器翻译中有着重要的应用。对于该问题,传统的方法是在双语两端分别进行单语的语义角色标注,但是这样很难在两端同时获得准确的语义角色标注结果。由于双语平行句子对是互为翻译的,所以两端的句子在语义上是等价的。反映在语义角色标注上,就是两端的句子应当有一致的谓词—论元结构。利用论元结构的一致性,我们能得到更准确的语义角色标注结果。因此,本文提出了一个双语语义角色标注的联合推断模型,用来同时得到双语两端的语义角色标注结果。在生成语义角色标注结果时,本文将论元结构的一致性作为一种约束。这样做能够消除一部分歧义,得到更好的语义角色标注结果。在中英平行命题库(Parallel PropBank)上的实验表明本文的方法能够同时提高双语两端语义角色标注结果的准确性。除此之外,本文的方法还能给出双语论元的对齐关系,从而能够为机器翻译提供有用的信息。
其他文献
日趋复杂的工业控制系统,客观上要求控制系统的网络化,网络控制系统是控制领域发展的必然趋势。本文从网络控制系统调度与控制协同设计方面进行研究,减小了网络诱导时延等给控制
微流控PCR是将微流控芯片技术与分子生物学PCR技术相结合,在微流控芯片上实现PCR。与常规的PCR技术相比,微流控PCR具有耗样少、速度快、扩增效率高和可集成等优势。温度是影响P
社交网络,即社交网络服务(Social Networking Services,简记SNS),它是以一定社会关系或共同兴趣为纽带、以各种形式为在线聚合的用户提供沟通、交互服务的互联网应用。在社交
近年来,尽管自动化技术和信息技术得到了飞速的发展,实现系统的完全自动化仍是一个巨大的难题,人类操作员仍广泛存在于各种人机系统中,并成为保障系统安全运行的关键。在高安
随着半导体存储器工业技术的迅速发展,存储器芯片的集成度不断提高,而外围引脚数却有一定限制,许多功能子电路被封装在芯片内部,要从外部对其进行控制和观察很困难,即使采用高档的
导弹是一种防御和攻击的精确制导武器,在高技术战场中起着不可替代的作用,并不断地影响现代先进技术的发展。导弹制导控制系统是导弹的中枢,而导弹的末制导导引律是导弹制导控制
预测是政策制定以及科学决策的重要依据。尤其是在应对重大的组织问题和社会问题时,更需要事先尽可能及时准确地对可能发生的各种事件进行有效的预测。然而,与预测对象相关的
人脸特征点的自动定位技术一直是学者们研究的热点,可以应用于三维人脸建模,人脸表情识别等领域。目前人脸特征点定位的方法较多,但在定位精度和计算速度方面都存在需要改进
从20世纪80年代闭环辨识的概念提出以来,闭环测试条件下的多变量系统辨识一直是过程控制领域的热点问题,它对多变量控制系统设计以及控制器的参数调整等方面都有着重要意义。
模块化机器人是由一系列标准的关节模块和连接模块构成的机器人系统。传统的机器人一般都是基于位置控制的机电一体化系统,将力矩传感系统引入机器人中,可以提高机器人的智能化