领域科技论文中数值指标知识对象抽取方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:kruotreo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技论文中存在丰富的数值指标信息,是量化领域研究进展的主要形式。当前,研究者多通过人工阅读、摘录的方式获取、组织数值指标信息,从而定量总览所研方向实际进展,发现重要研究线索。自动从海量科技论文中快速定位到所需数值指标信息,进行结构化表示,避免大量人工阅读,具有重要的应用价值。  现有相关研究多参考信息抽取中实体、关系识别,使用领域特征结合规则、机器学习等方法识别特定数值短语作为结果,忽视数值本身语言学特征,存在数值指标关联语义信息缺失、指标取值失实、人工标注数据不足等问题。  针对上述问题,本文通过基础实体识别、指标取值关系识别、指标关联属性抽取,获得语义内涵丰富的数值指标知识对象。具体而言,进行以下工作:  (1)识别数值指标知识对象基础要素。利用取值比例等特征统计识别数值指标;构建正则表达式识别数值;以单位本体为词典使用AC自动机算法别单位。  (2)识别取值关系获得指标实际取值。通过远程监督学习数值指标与数值间取值关系句法特征,来识别数值指标句中的取值关系,得到数值指标字面取值;将取值关系分为“大于”、“小于”、“等于”、“倍数”四类,归纳相应的实际取值换算公式,通过语义标注数据学习得到取值关系类别的词法特征,对取值关系分类,将字面取值代入与类别对应的换算公式计算得到实际取值。  (3)抽取指标关联属性信息。分析并选择适用的序列标注模型,识别数值指标上下文中时间、空间实体,通过句法依赖分析等方法判断其是否与指标关联,抽取时空信息;利用图方法、文本相似度抽取指标主题信息。  (4)领域实证分析。基于气候变化、天文学领域全文数据,进行单领域和跨领域实证研究,证明抽取效果达到同类平均水平之上,并具有较好领域扩展性。  本文的主要贡献:1.提出并在一定程度上解决了数值指标实际取值问题,所得取值更贴近作者的实际表达意图;2.将远程监督方法引入取值关系识别任务中,解决标注数据不足问题,减少大量人工投入;3.以数值指标知识对象为目标抽取数值信息,所得结果具有丰富语义内涵。
其他文献
[目的]了解中国地学科技期刊互联网+新媒体技术的应用现状、效果和存在的问题,为提高我国地学科技期刊的宣传能力和影响力提供参考.[方法]围绕期刊网站、优先数字出版、邮件
讨论RSS的特点及其在个人信息环境设计中的作用,提出基于RSS的个人信息环境设计的目标、原则,结合实际介绍基于RSS的个人信息环境设计的具体方法,最后,分析基于RSS的个人信息
提出一种基于虚词停顿的中文分词消岐的模型.首先利用建立的虚词知识库对文本进行粗分词-划分停顿,然后对句子中停顿间的短语用双向最大匹配再进行分词,提取歧义部分,最后使
针对如何运用形式概念分析(FCA)协助完成领域本体的描述问题,先阐明基于FCA的领域本体描述原理,进而提出基于FCA的领域本体描述模型,最后以脊椎动物领域为例,给出一个基于FCA
伴随计算机网络技术的发展,人类社会信息化程度不断扩大。人们通过互联网可以享受到及时的信息通讯,便捷的信息查询,低廉的服务定制,网络环境不断扩张。通过将信息转换成可传输的
分析电子商务系统内涵及其与ERP系统的关系,阐述B2B模式企业电子商务系统CRM、SCM等业务流程,构建制造企业电子商务系统模型,研究利用扩充UML元模型定义企业建模方法.采用UML
随着我国信息化进程的加快,越来越多的企业建立了自己的门户网站,但是由于缺乏正确的建站理论指导,企业网站普遍存在质量不高的现象。网站评价是随着因特网的发展而发展起来的一
本文深入讨论了互联网发展的现状,互联网舆情的复杂性以及论坛舆情的特点。论坛冲突无处不在,网络匿名性加剧网络冲突,宣泄情感的词的滥用和管理者对过激词语和帖子的屏蔽,使
眼下,初中学生在学习英语中往往只会读英语,而不会说英语,或者说不会说好英语,从而又影响写的发挥,造成恶性循环,严重地损折了他们学习英语的兴趣,然而,“说”英语是学以致用的重要体现,在交际中体现了学英语的重要作用。笔者认为有必要给它理清脉络,给说英语定个位置。  听、读、说、写是英语学习中的四大基本技能,四者密不可分,相辅相成,说是在听、读的基础上逐渐建立起来,且又为写打好基础。笔者以为从交际功能这
在知识经济时代,大学技术转移已经成为推动科技创新、经济发展、社会进步的重要动力之一,大学蕴藏了大量的知识,以及创造知识的人力资源和研究环境。然而我国大学技术转移还比较