基于半监督的实体关系抽取技术研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:qh12121312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取就是将无结构化的信息转换为结构化或者半结构化信息的过程。目前大部分信息抽取系统是从文本中抽取特定的实体信息,包括时间、机构、地点等。自然文本中不仅蕴含了大量的实体信息,还蕴含着实体之间关系的信息这些实体关系信息能够帮助人们更方便的获取知识。 信息抽取有三个基本任务,命名实体识别、实体关系抽取和事件发现。实体关系抽取不仅是信息抽取的一项重要任务,也是事件发现和多种应用系统的基础,具有重要意义。实体关系抽取的基本任务是寻找并判定实体对之间存在的特定关系。 本文的关系抽取方法属于半监督的Bootstrapping方法,目标是从大量未标注的自然语言文本中学习用于发现某种特定二元关系的模式,并找出具有此种关系的实体对。其中,本文利用了词语相似度计算来进行词概念的扩充,以提高抽取效果。主要研究成果如下: 1.提出一种结合了同义词词林分类体系知识和实际语料库的统计规律的词语相似度计算方法,这种方法一定程度上克服了基于分类体系的方法和基于大规模语料库的统计方法各自的缺点,词语相似度的值也比较合理,并通过数据平滑进一步改善了结果,实验证明了该方法的有效性。 2.深入研究了半监督的Bootstrapping实体关系抽取方法中各个关键技术问题,提出了利用全文检索系统来获取待抽取的候选文本的方法,并设计了一种新的模式的表示方法,模式中的词以selective属性相区别,以反映不同的词对于抽取过程的重要性,其中最重要的词称为核心词,即最能说明“关系是什么”的词。 3.针对汉语句子结构灵活,表意词汇丰富的特点,使用了词语相似度改进了模式匹配的算法,提高了模式的覆盖度。 4.提出了一种用于Bootstraping半监督抽取过程的种子元组生成方法,减轻了此类系统中用户挑选种子元组的难度。 5.在以上研究的基础上,设计并实现了一个基于半监督的Bootstrapping方法的实体关系抽取系统。
其他文献
随着近年来3D技术的发展,三维重构一直是图像处理的热点研究方向。在三维测量应用中,相移条纹投影法具有系统简单、高效等优点,是常用的三维测量方法。本文通过研读大量文献和对
目前的计算机网络中,公钥加密算法仅用于对称加密算法密钥的保护,而需要保密的数据主要是通过对称加密算法处理的。因此对称加密芯片的研究对于网络用户的安全通信和未来的网络
随着数字媒体(数字图像、数字视频、数字音频等)得到日益广泛的应用,其版权保护成为一个迫切需要解决的问题。传统的加密系统在数据传输过程中虽然有保护作用,但数据一旦被接收
智能交通系统(ITS)是解决现代社会交通需求与供给矛盾的重要途径之一,是解决交通基础设施建设增长缓慢与机动车数量逐年迅速增长之间矛盾的最为有效的途径。造成交通拥挤往往
本文介绍一种新的求解整线性方程组的方法.该方法将数值计算方法和符号计算方法相结合,在计算复杂度不高的情况下得到精确解.文中通过调整算法的结构和循环终止条件,进一步降低
目前随着各类计算需求的增长,许多组织机构内部都购置了多种计算资源提供服务来满足自己的需要,如集群,SMP等。这些计算资源间通常用高速网络连接起来,向外提供服务,共同解决
平安产险是国内第三大产险公司,其客户的数据量达到四千多万。对于保险公司来说,客户是一笔宝贵的财富,为了有效的实现客户的管理,使客户能够获得最大的利益,首先就必须掌握客户真
图像处理是可以看作信号处理的一种,其中的输入是单幅图像或一组图像。图像处理的输出,可以图像或与其相关的参数。图像处理是无处不在,其应用包括从电视到体层摄影术,从摄影到印
随着现代企业中跨地区、跨部门的业务需求增长,企业IT系统之间的协作与交互越来越重要,越来越复杂。消息中间件已经成为一种有效的应用交互解决方式。目前大多数的消息中间件产
中国书法与绘画(简称书画)历史悠久,源远流长,是中国传统艺术中一朵艳丽的奇葩,也是世界艺术史上不可多得的瑰宝。其中书法艺术把笔墨精神发挥得淋漓尽致,充分体现了水墨艺术的灵