论文部分内容阅读
在信息多元化时代,社会生活中的热点事件层出不穷,随之而来的是新概念、新词语的大量出现。新词发现是自然语言处理领域的核心问题之一,对自动分词、机器翻译以及知识库构建等领域都具有重要意义。伴随互联网内容的爆炸式增长,新词产生的速度更快、数量更多,在词形、语义、语用等方面的变异也更为复杂,这给新词发现带来了挑战。针对这些问题,本文基于词法句法联合分析的方法,提出一种面向互联网,融合句法结构、语义和词语定义等多种线索的新词发现框架。 新词发现与自动分词有着紧密的联系,一方面新词发现依赖于分词结果提供的词语边界信息,另一方面新词作为未登录词影响着分词的性能。因此,本文将新词发现融入分词过程,以期更好地建模两者之间的关系。具体实现基于词法句法联合分析,在解码过程中引入新词发现,根据识别的新词约束解码,减小搜索空间。新词发现包括新词检测和新词验证两个子任务,新词检测通过后验概率度量汉字串成词并具有某种词性的可能性,挑选较高概率的汉字串作为新词候选;新词验证借助搜索引擎从互联网获取含有新词候选的大量文本,经过词法句法联合分析、语义角色标注和定义抽取后,分别融合句法结构、语义和词语定义三种语言学线索验证新词。 融合句法结构线索的新词发现需要词法和句法分析等关键技术的支持。本文在词法句法联合分析的基础上,提出一种以新词候选在不同上下文中成词或强制成词后句法置信度变化为准则的新词发现方法。本文从构词法知识入手,分析了命名实体特点和普通词语字族化现象后,通过语素类别及词缀库标注了宾大中文树库中词语的内部层级结构,以捕获词语的构词规律,进而采用隐标记的句法分析方法实现了词法句法联合分析。本文实现的联合分析在分词、词性标注和句法分析上均达到较好性能。 本文基于语义角色标注和词义消歧的关键技术,提出将新词候选在知网中的相似概念作为语义线索发现新词的方法。为了匹配到知网中的相似概念,首先,本文通过解析知网概念定义的形式化描述,抽取义原之间的语义角色关系以构建义原的语义表示;其次,针对新词候选的语义表示,基于语义角色标注抽取的谓词论元结构以构建词语的语义表示;最后,计算语义表示的向量夹角的余弦值以度量概念相似度。为了获取词语的语义表示,本文构建了一个语义角色标注系统,并针对词汇特征的数据稀疏问题,引入知网语义知识和构词法知识,有效提升了系统性能。 定义为理解新词提供了有效途径,本文在定义抽取的基础上,提出以词语定义为准则发现新词。为了抽取新词候选的定义,本文提出了一种面向互联网,规则和统计相结合的定义抽取方法。对于新词候选,通过定义模板粗匹配的方式过滤互联网文本得到定义候选,分析定义候选的句法结构、语义角色等,利用最大熵模型融合这些特征,实现了定义的自动抽取。 在宾大中文树库和微博语料上的实验表明,本文提出的在词法句法联合分析过程中融合句法结构、语义和词语定义三种线索发现新词并约束解码的方法,显著提升了新词发现的性能,验证了这些线索对于新词发现的有效性。