非结构化文本中科研要素及其关系的识别方法研究

来源 :中国科学院文献情报中心 | 被引量 : 0次 | 上传用户:zz5616527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从非结构化的数字文本中识别出结构化的科研要素(科研人员、科研活动等)及其关系,对情报分析等研究有重要意义。尽管知识抽取等研究已经在或正在探索相关识别任务的思路和技术方法,但在精细化对象识别、对象间丰富的语义关系识别等方面仍面临较多问题。本论文即探索了从非结构化文档中识别精细化的科研要素及要素间多种语义关系的思路和技术方法。   在广泛调研了相关研究基础上,论文深入分析和总结了精细化对象及对象间语义关系识别的思路和技术方法,提炼出目前研究中的薄弱环节,并结合论文研究目标提出需要解决的关键问题,即精细化科研要素的识别、要素语义可信度计算、科研要素间关系的识别及关系的语义判断。在提出科研要素及其关系的本体结构基础上,构建出识别的总体模型和基本流程。   依据提出的总体模型和基本流程,论文逐一明确了四个关键问题的技术解决方案。在精细化的科研要素识别中,论文提出提取科研要素特征、识别中心词、构建词典—语法模式、学习上下文特征及构建模式检索式的技术思路。在可信度计算中,论文提出利用上下文特征构建规则和计算文档相似度的方法。在关系识别中,论文分析了科研要素间关系所依存的不同句法类型特征,分别设计出构建模式与非模式关系三元组的详细流程。在判断关系三元组语义时,论文提出计算候选关系三元组与样本语料语义相似度的方法。综合这四个关键问题的技术解决方案,即形成科研要素及其关系识别的总体技术思路。   基于上述技术解决方案,论文选择GATE作实验框架,人工智能领域的科技新闻作实验数据,实现了科研要素及其关系识别的实验系统。并从小数据量文本的总体识别情况、与人工标注结果对比,以及大数据量的查准率评测两个方面进行分析,验证了方案的可行性和有效性。   通过以上工作,论文探索出从非结构化文本中识别出精细化的科研要素及其关系的思路和技术方法,为情报分析、数据挖掘等研究工作提供了重要技术支撑。  
其他文献
中图分类号:G807 文献标识:A 文章编号:1009-9328(2017)05-000-01  摘 要 随着社会经济的快速发展,教育教学的改革也取得了显著的成绩,就大学教学而言,与传统的教学方式有很大的区别,教师的教学理念方面也有了很大的改变。由于高校是人才培养的主要场所,学生的身体素质高低与高校体育教学质量有非常紧密的联系,为了提升大学体育教学的质量,许多高校实施了拓展训练,如何能更好地发挥拓
随着我国教育体系和教育理念的不断改革,新课改教学理念也在我国高职教育当中被重视起来,尤其是在高职体育教学中.若要更好地促进高职学生的良好发展,就必须要改变传统的教学
体育是素质教育的重要组成部分,对学生的健康成长和全面发展发挥着关键作用.高中体育田径教学一直是高中教学体系的一部分,自课程改革以来其重要性也不断被强调,但是实际教学
体育公开课和体育常态课其实都是体育课,只是由于上课目的不同,从而造成体育公开课与常态课之间存在差异.本文对体育公开课与常态课的相同点和不同点进行分析,加深读者对体育
群体教学中,只有实现了合作学习才能取得更好的效果.实现了共同学习,不但会互惠互利,还能在新的模式中增加对所学知识的了解.大学足球是一种群体运动,只有深刻运用好大学足球
中图分类号:G807 文献标识:A 文章编号:1009-9328(2017)05-000-01  摘要随着我国高等教育制度改革如火如荼的进行,涌现了大量职业类院校,为社会输送大量专业技能人才。职业院校的办学目标就是给社会输送大量具备职业技能的专业技能人才,这所有一切都是建立在健康体魄的基础上。有鉴于此,本文以职业院校体育教学改革为切入点,分析创新体育教学改革的措施。希望本文可为教改提供借鉴。  关
随着知识管理的兴起和发展,企业知识共享已经受到人们的关注,成为知识管理研究的热点。隐性知识也是企业在竞争中赢得优势的关键,因为企业内的绝大多数知识是隐性知识,而其具
排球运动在我国的高校体育课程中属于开设比较早的课程,并且也是最为普遍的运动项目之一,但是,高校排球课程教学中还存在着很大的问题.本文首先分析了高校排球教学方法中存在
伴随着社会经济的飞速发展与人民生活水平的提高,大众对于各类体育运动项目都表现出了重视和喜爱,这种倾向在小学生的学校生活中也体现得非常明显.众所周知,在当前的小学生活
学科馆员制度作为一种全新的服务模式,是图书馆信息服务工作的深化。近年来,随着我国学科馆员制度的推广,服务水平的不断提高,在其服务模式、工作职责等方面的研究也取得了一定的