论文部分内容阅读
随着互联网技术的蓬勃发展,电子文档数据正呈现出爆炸式的增长,而信息格式的异构性和信息之间较少的关联描述,使得人们淹没在浩如烟海的信息中难以直接获得有价值的信息。文本要素抽取与关联旨在从非结构化的自然语言文本中抽取出结构化的信息,其中文本要素主要包括人名、地名、组织名、观点词、事件触发词等,而文本要素关联则用来获取这些要素之间存在的关系模式或者关联强度。文本要素抽取与关联使人们从繁重、枯燥的信息整理、归档、检索与使用中解放出来,极大地提高了人们在信息化时代知识获取的效率。 文本要素抽取与关联方法的研究热点之一是多特征联合学习方法。传统方法往往将一个复杂任务分解成多个子任务,并用独立的特征集分别训练这些子任务,而多特征联合学习方法旨在将一个复杂任务中所有的特征融入到一个框架中,联合学习一个统一的特征向量表征方式,从而有效地促进了特征之间的共享,减少多特征多任务下的层叠错误问题。本文针对观点词抽取、事件触发词抽取以及文本要素关联等应用,通过分析现有方法存在的问题,提出相应的解决方法。 本文的主要创新点为: 1.提出了一种基于马尔科夫逻辑网的观点词抽取方法。针对传统观点词抽取方法采用独立的特征集训练主观分类和极性分类两个子任务,并将各个子任务自底而上串联起来容易引起层叠错误的问题,该方法利用马尔科夫逻辑联合模型中自顶向下的全局特征,使各个局部特征融入到统一的框架中进行联合学习,从而降低了传统两步策略带来的层叠错误问题;针对马尔科夫逻辑中全局特征较少的情况,提出了一种新的语义相似特征,其基本思想是语义相似的观点词很有可能表达相似的感情色彩,这种全局特征可以促使各个观点词的分类结果相互指导,大大提高了该方法的联合学习能力。在子句级情感分析数据集中,该方法相对传统的两步策略提高了7.26%的正确率,同时语义相似特征的引入则使该方法的正确率提高了4.86%,这充分表明该方法能够有效的减少层叠错误问题给系统带来的影响。 2.提出了一种基于Event-LDA模型的事件触发词抽取方法。针对传统的事件触发词抽取方法依赖标注良好的数据集,且仅能识别预先定义好的事件类型,同时将事件触发词检测和分类串联起来容易引起层叠错误的问题,该方法首先利用Event-LDA直接对所有候选词进行建模,无需事先设定事件类型,而是从大规模的未标注数据中自动地学习多维主题特征,然后利用统计尾置信度测试方法捕获高概率的主题值,从而检测出真正的事件触发词。在大规模未标注的新闻语料中,该方法能够准确地学习事件触发词在主题上的分布情况,并在检测结果中取得了与监督学习方法相接近的约87%的准确率,这充分表明该方法能够非监督地实现事件触发词抽取。 3.提出了一种基于RGloVe(Global Vectors for Relation Representation)模型的文本要素关联方法。针对传统的关联方法依赖人工标注的数据集,且仅能识别预先定义好的关系类型或者谓词词典,同时将要素对检测和关系分类串联起来容易引起层叠错误的问题,该方法首先直接利用大规模未标注数据中所有文本要素之间的全局共现统计来训练关系向量,由于这种全局特征在多维语义向量空间中呈现出线性的子结构,从而能通过计算向量之间的余弦相似度获取文本要素之间的关联强度。该方法的特点是利用真值表示文本要素之间的关联,无需预先定义关系类型或谓词词典,从而适合应用在开放领域的海量文本结构化中。在大规模未标注的新闻语料中,该方法有效建模了文本要素间的语义关系,且与传统的GloVe方法相比,取得了9.59%较低的错误率、11.7%较高的准确率以及拟合较好的平均准确率曲线,这充分表明了该方法能够非监督地实现文本要素的关联。