面向单事件模板的无结构文本信息提取技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:zcy124589
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文提出了一种本体驱动的信息提取方法,用于处理Web上的大规模的真实的无结构文本.该研究引入了浅层自然语言处理技术用于对文本进行语法分析,既是信息提取的基础,又提供了更为丰富的提取知识.同时引入本体论方法,一方面将提取知识形式化的定义在本体中,从层次更高、更本质的方面描述这些知识,另一方面为最终的结构化数据提供描述模式.另外,为了减轻本体工程师的工作量,该研究利用统计机器学习方法实现了针对文本的半自动本体学习,使得在本体工程师的适当介入下,方便而有效的获取提取知识,从而不断改善系统的性能.整个系统的设计保证了领域本体是唯一的与领域相关的部分,通过替换领域本体,便可以在不同的领域间有效的迁移.
其他文献
该文的研究工作集中在分组分类算法的综合分析、设计、实现、测试和比较上.首先对分组分类算法中一些与应用无关的、基本的、一般性的问题加以总结、分析,给出了形式化的描述
IEEE 1394协议是在由多媒体系统和设备组成的网络中传输多媒体数据的一个总线协议.该协议具有很好的可扩展性,各种设备可以随时加入到网络中来,或者随时从网络中拔出.协议本
我提出了一个基于XML的教育资源搜索引擎.该系统专门针对教育资源站点进行搜索,对使用者提供教育资源的搜索服务.利用该系统用户可以快速而准确的搜索教育资源库中的资源,包
该文将主动形状模型(ASM)技术用于头影标志点和结构的自动识别.并针对ASM算法中的问题,提出了若干改进方案.第一,实现基本ASM算法,并用于头影识别.ASM算法是一个形状统计模型
随着企业需求的不断扩展以及网络技术的迅猛发展,企业应用开发变得越来越慎重,越来越复杂。为了能够在竞争中处于有利的地位,采用合理的企业应用架构和新技术就成为企业能否有效
该文重点研究了基于OP通道的人-人交互与协作系统的协调机制及其协调功能.在描述系统模型的基础上,分析了系统对协调功能的需求,提出了通用的形式化协调模型,给出了系统的协
随着科学技术的发展,人们迎来了数字时代,许多产品都建立在电子信息的基础上表达,数字技术使得产品变得极大丰富,也使它们的存储、复制和传播变得简洁快速,而这也导致了数字
随着互联网的迅猛发展,网络安全问题和计算机犯罪也呈现愈来愈严峻的趋势。据统计表明,绝大多数的网络安全问题都是由系统漏洞、软件漏洞或者web漏洞所引起。利用漏洞或各种
变异情况对语音的影响是导致语音识别系统性能下降的原因之一.一般情况下变异语音数据采集困难,获得的训练数据量少,这样即使测试环境和训练环境都相同,识别性能也不理想.利
球形运动装置是一种将所有元件封装在一个封闭的球壳中的机器人,外观呈球形。球形运动装置具有全方位运动、转弯半径理论为零、占地空间小、运动摩擦力小、内部装置不受外界干