基于统计学习的中文信息抽取技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：wanghui1234567890

【摘要】

：

Web的发展使得电子文档数目巨大且迅猛增长，大量的信息存在于非结构化的自然语言文档中，为了能高效地利用存在于自然语言文本中的信息，信息抽取技术提供了一条有效的途径，利用它

【作者】

：

周俊生

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2004年期

【关键词】

：

中文信息抽取自然语言处理中文命名实体中文组块识别算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web的发展使得电子文档数目巨大且迅猛增长，大量的信息存在于非结构化的自然语言文档中，为了能高效地利用存在于自然语言文本中的信息，信息抽取技术提供了一条有效的途径，利用它可以将非结构的文本转化为结构化的信息，以便于信息的后续处理(如：数据挖掘等)。信息抽取系统的实现涉及自然语言处理的一系列难点，是当前自然语言处理的一个研究热点。本文主要基于统计学习方法，围绕实现中文信息抽取过程的几个关键问题展开研究，主要工作包括： 1．提出一种基于层叠条件随机场模型的中文命名实体识别算法。条件随机场是一种新的概率无向图模型，本论文在充分利用条件随机场模型优势的基础上，结合中文命名实体的特点，设计了一种层叠条件随机场模型用于中文命名实体的识别。在层叠条件随机场模型中，低层模型的识别结果将传递到高层模型，为高层条件随机场模型对复杂命名实体的识别提供决策支持。实验结果显示，该算法取得了很好的识别效果。 2．提出一种基于大间隔方法的中文组块识别算法。首先给出了中文组块的定义，将中文组块识别问题转化为序列化标注问题；然后根据大间隔思想给出判别式的序列化标注函数的优化目标和训练算法，并针对中文组块识别问题，设计了一种改进的F1损失函数，使得F1损失值能依据每个句子的实际长度而相应缩放，实现间隔值的动态调整，从而能够引入更有效的约束不等式。通过在LDC的CTB4数据集上的实验数据显示，该算法优于当前的其它中文组块分析算法。 3．提出一种有监督的关联聚类算法实现对中文实体提及的指代消解。首先将指代消解过程看成图的关联聚类问题，它从全局的角度实现对共指等价类的划分，而不是孤立地对每一对名词短语分别进行共指决策；然后给出了关联聚类的推导算法；最后设计了一种基于梯度下降的特征参数学习算法，实现从训练语料中自动学习各个特征的权值，从而使得训练出的特征参数能够较好的拟合关联聚类的目标。在ACE中文语料上的实验结果显示，该算法优于传统的“分类—聚类”指代消解学习算法。 4．针对当前中文指代标注训练语料非常缺乏的现状，提出一种无监督聚类算法实现对中文实体提及的指代消解。通过将指代消解问题转化为图划分问题，引入一个有效的模块函数作为目标函数实现对图的自动划分，依据该函数值来自动选择最优的聚类数目，并设计了基于贪心法的聚类算法。聚类过程避免了阈值选择问题，是一种有效可行的无监督指代消解算法。 5．提出一种基于新的合成核的中文实体关系抽取方法。论文首先设计了一种能够直接利用浅层语言特征的混合谱核来描述关系实例的上下文，并给出了基于广义后缀树的高效核函数值计算方法；然后再通过与实体核的组合生成合成核，该合成核既表示了两个关系实例出现的上下文之间的相似特征，又考虑了两个实体对之间的相似特征，核的计算不需要依赖于中文句法分析结果，且具有较低的计算复杂度。在ACE中文语料上的实验结果显示，基于这种新的合成核的中文关系抽取方法获得了较好的实验结果。

其他文献

基于多特征的中文多词术语提取技术研究

随着互联网技术的不断发展，大量电子文档的出现，知识的载体由过去的纸质文档转变成电子文档，术语在知识传播中的作用越来越重要。单纯依靠人工来整理和规范术语的工作越发繁重，利

学位

中文术语自动提取单元度领域度信息抽取自然语言处理SVM框架

HyperSplit数据包分类算法优化设计与实现

数据包分类技术是许多网络关键技术的基础，涉及到网络的控制、性能、安全、管理等多方面内容，已经广泛应用于许多不同的场合，是未来网络发展主要研究的基础内容之一。研究与设计

学位

数据包分类算法优化设计决策树时空性能

三维人体运动捕获数据处理技术研究

三维人体运动捕获技术是计算机视觉、计算机图形学以及虚拟现实等研究领域中一个备受关注的前沿方向,在计算机动画、人体运动仿真、生物运动力学分析、医疗康复等方面具有广

学位

数据处理运动捕获技术最小二乘匹配链状骨骼匹配人体运动

林木场景漫游关键技术的研究与实现

虚拟林业技术已经在农林业生产、生态研究、景观设计和游戏娱乐等领域有了广泛的应用，并带来了巨大的效益。随着计算机软硬件水平的提高、实时图形学理论和科学可视化技术的不

学位

林木场景建模可视化漫游碰撞检测

基于行为的入侵防御系统研究

针对在安全领域中单纯的防火墙和入侵检测系统都存在着局限性，入侵防御系统应运而生，它是继防火墙和入侵检测技术之后的新一代信息安全保障技术。它是实时地保护网络及系统不受

学位

入侵防御木马Linux防火墙Snort预处理器行为分析

图像序列中运动目标的三维重建的研究与实现

随着科学技术的不断发展，视频处理技术得到越来越广泛的应用。视频处理技术的研究内容包括运动目标检测和物体跟踪等很多领域，视频处理技术的研究成果可以广泛地应用在各个领域

学位

视频处理图像序列运动目标三维重建技术匹配算法

GMR-1 3G终端NAS层子系统设计与实现

对于整个通信系统而言，卫星移动通信系统是地面蜂窝系统的一种必要的补充和延伸，尤其在抢险救灾、应急指挥、海洋渔业等领域发挥重要作用。卫星移动通信系统主要由卫星、地面站

学位

卫星通信NAS层子系统测试方法终端协议栈

基于多层条件随机场模型的自然语言序列标注研究

序列标注问题是自然语言处理领域的一个非常常见的任务，从浅层的分词、词性标注，到较深层的组块分析以至更为深层的完全句法分析、语义角色标注等任务，都可以看作是典型的序列标

学位

自然语言处理序列标注多层条件随机场模型

SaaS模式下多租户系统架构的产品设计数据管理系统的研究

学位

科研服务平台PKUSpace中科技文献推荐子系统的设计与实现

信息技术技术的飞速发展与数字资源数量的爆炸式增长,使传统的以关键字为检索为手段的信息获取技术日益不能满足人们的需求。在这种情况下,个性化推荐系统应运而生。推荐系统

学位

推荐系统协作过滤基于内容的过滤协同标签

基于统计学习的中文信息抽取技术研究

其他学术论文