汉语文本信息抽取关键技术研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:yokuchan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来和Internet的发展,“信息爆炸”成为信息处理领域迫切需要解决的问题。如何实现快速准确的信息获取,成为目前国内外研究人员关注的热点课题。文本信息抽取就是解决这一问题的有力手段之一。相对于英文信息抽取技术,汉语信息抽取研究基础相对薄弱,底层关键技术的发展滞后,严重影响了汉语信息抽取系统整体框架的实现。   本文以汉语自由文本为对象,对命名实体识别、实体提及识别、实体提及共指消解等三个信息抽取关键技术展开深入研究,主要研究工作和创新点包括:   1)商务领域产品命名实体标注规范研究及语料库建设   面向互联网真实文本,对商务领域三类产品命名实体进行了合理界定,并深入分析了它们在结构和表达上的特点,以此为基础制定出一套操作性较强的产品命名实体标注规范,建立了第一个汉语产品命名实体手工标注语料库。   2)汉语文本中产品名命名实体识别   针对产品命名实体“结构复杂、表达灵活、允许嵌套”的特点,本文提出了一种基于层级隐马尔可夫模型的产品命名实体识别方法,该方法基于词形和词性特征分别构建了两个层级隐马尔可夫模型,进而融合两个模型并结合知识库和启发式规则,综合利用不同层面的上下文特征进行产品命名实体识别。实验结果表明,论文提出的方法在性能上优于基于两层级联最大熵模型的识别方法,在电子数码领域和手机领域均取得了比较满意的效果。   3)汉语文本中实体提及识别   针对汉语文本中实体提及“多层嵌套”的特点,提出了一种层次结构信息编码方法,在绕过深层句法分析的同时可以较好地对实体提及的嵌套结构进行建模。在此基础上,构建了基于条件随机场的实体提及嵌套边界检测模型和基于支持向量机的实体提及多层信息标注模型,有效地融合丰富的语言学特征进行实体提及识别。实验结果表明,论文提出的层次结构信息编码方法可以有效地解决实体提及的多层嵌套识别问题,基于条件随机场模型和支持向量机模型的实体提及识别方法具有良好的性能。   4)基于统计的汉语实体共指消解   针对基于规则的指代消解方法“依赖深层句法语义分析、可移植性较差”的不足,将基于“分类—链接”的统计框架用于汉语文本实体共指消解,有效地提高了系统的鲁棒性和可移植性。该方法运用支持向量机统计学习模型对两个实体提及的共指关系进行建模,采用“最近链接策略”实现文本层面上的实体共指分析,构建了基于统计的汉语实体共指消解系统,并深入分析了不同层面的上下文特征、不同分类器及其组合对系统性能的影响。实验结果表明,基于统计的汉语实体共指消解方法是有效的,在无需深层句法语义分析的情况下可以获得比较满意的结果。   5)语言学理论指导下的共指消解统计特征挖掘   针对基于统计的共指消解方法中“统计黑盒子”的盲目性,本研究以指代消解语言学理论三种消解因子为指导,通过“无序特征重组”、“大颗粒度上下文表示”、“上下文窗口扩展”、“搭配信息抽取”等四种策略挖掘不同形式的统计特征,目的是充分利用浅层语言学特征去近似刻画相关语言学理论所描述的语言特性,在一定程度上实现由浅层特征到深层语言学规则的映射。实验结果表明,本文提出的基于语言学理论的特征挖掘策略对基于统计的共指消解方法可以起到有效的改善作用。
其他文献
虹膜识别通过对比虹膜图像特征之间的相似性来确定人们的身份,它在海关、银行、网络、公安、社保等领域都有广泛的用途,属于面向国家安全重大需求的战略高技术。在虹膜识别系统
由于月球表面特殊的环境如:松软月壤,复杂的地形以及低重力环境,难以在地球上搭建和月面环境相似的实验场地。因此需要开发可视化的仿真实验平台模拟月面巡视器在月球表面的一
星球漫游车技术是一项跨学科的综合性技术,它反映了一个国家整体科技水平和高技术产业的发展水平,对漫游车进行研究具有长远的战略意义。漫游车一般都工作在特殊的环境中,综合考
学位
航空影像分割是对航空影像进行分析和理解的关键步骤。近年来,基于偏微分方程的航空影像分割方法由于其能有机结合图像本身的低层次视觉属性与待分割目标的先验知识从而受到了
本论文主要利用人工智能、神经网络自适应控制、寻优策略和基于Bang-Bang控制的智能开关预测控制理论对电气设备辐射电磁骚扰自动测试控制系统进行了较全面和深入的研究,取得
在计算机视觉领域,从二维图像中重建出物体的三维模型一直是学者们研究的热点,它综合了众多的学科知识,且在航空测绘、视觉导航、医学诊断、电子商务、虚拟现实等领域都有着
运动估计的研究对象主要分为刚性物体、连接刚体和非刚性物体等。计算机视觉中的运动分析研究均主要集中在对刚体运动的研究,且学者们已取得了一系列的成果,并建立了较为完善的
近年来,随着编解码技术的发展和中国移动GPRS网络,中国联通CDMA网络,以及中国电信、中国网通的WLAN无线宽带接入系统的开通,利用它们作为承载网络,进行低码率的无线视频监控
学位
发酵过程是生物领域最具潜力的分支,生物发酵技术在现代食品、医药等高附加值加工业中所发挥的作用越来越大,在未来几年内,生物发酵将成为我国国民经济的支柱产业之一。但技术的发展是一把双刃剑,发酵技术的快速发展在为我们的生产生活带来显著改观的同时,其存在的诸多安全性问题也逐一凸显,这迫使人们对生产过程的安全性和可靠性越来越重视。因此,为了提高发酵过程的安全性和可维护性,同时提高产物质量,急切地需要对发酵过