【摘 要】
:
随着互联网和各个行业不断发展,数据也呈爆炸性增长。大数据环境下如何快速从海量数据中找到有价值的信息,并高效地从中抽取知识形成图谱是亟待解决的问题。本文分析了面向事件知识图谱和面向篇章理解知识图谱整个构建过程,结合现有技术设计了多种并行数据处理方法,将这些方法应用到图谱构建过程中各个阶段。本文的主要工作如下:(1)数据采集阶段,为了快速采集数据和对数据进行初步处理,设计并实现了一种基于主从模式的分布
论文部分内容阅读
随着互联网和各个行业不断发展,数据也呈爆炸性增长。大数据环境下如何快速从海量数据中找到有价值的信息,并高效地从中抽取知识形成图谱是亟待解决的问题。本文分析了面向事件知识图谱和面向篇章理解知识图谱整个构建过程,结合现有技术设计了多种并行数据处理方法,将这些方法应用到图谱构建过程中各个阶段。本文的主要工作如下:(1)数据采集阶段,为了快速采集数据和对数据进行初步处理,设计并实现了一种基于主从模式的分布式数据采集架构,架构中各节点以消息队列为消息中间件进行通信和数据传递,使用该架构能灵活地配置节点和高效地进行数据采集。在文中实验环境下相比单节点采集效率能够提升约4倍;(2)知识抽取阶段,从采集的篇章/事件数据中抽取实体和关系。为应对抽取过程中存在的多种算法和不同大小的数据集,基于Spark和消息队列设计了三种数据并行处理方式。实验表明,在文中实验环境下,根据不同算法场景合理地选择并行化方法,相比单节点处理能提高知识抽取效率约13倍;(3)知识表示阶段,为解决传统知识表示方法的不足,采用了将知识图谱映射到向量空间的表示学习方法。分析了现有分布式深度学习框架,并将其应用到表示学习和深度学习模型训练中。实验表明使用文中实验环境和并行化方法相比单节点下处理,能够提高表示学习效率约5倍;(4)知识加工阶段,主要分析了共现关系发现相关算法的并行化方法。为了高效地找出实体间关系和篇章/事件间关联,设计了并行化关联网络构建和聚类融合方法。同时对基于文本实体相似度计算的关联网络构建算法设计了一种更为高效的方法,对聚类融合算法进行了优化以降低计算量。实验表明文中集群环境相比单节点处理,能够提高关联网络构建效率约9倍,提高层次聚类融合算法效率约4倍。(5)为了集群管理和并行算法使用的便利,基于Web框架设计了一种知识图谱并行算法管理平台。该平台不仅提供了并行算法启动的UI接口,还能可视化实时监测集群状态。
其他文献
目的:探讨手法复位石膏固定、克氏针+外固定架固定、切开复位钢板固定治疗老年桡骨远端骨折的临床疗效。方法:收治108例135侧60岁以上的老年桡骨远端骨折患者,手法复位石膏固定71
本文针对已建成的某三级甲等医院内使用的各种信息系统中已积累的海量数据,提出了如何利用各种信息化手段,汇集与挖掘已有数据,为病患医治提供有效的技术支持。为实现该目的,
我国的古代诗歌渊远流长,博大精深,蕴含着丰富的文化底蕴,是中华民族灿烂的文化瑰宝。在初中语文教学中,古代诗歌教学占据着举足轻重的地位。据了解,如今的初中古代诗歌教学常常会偏向“背诵教学”,但是单纯靠死记硬背的古诗教学不会有长久的生命力,学生会因为不理解诗歌而很快生疏和遗忘,因此导致学生对古代诗歌的学习兴趣不高。研究全国一线语文教师的古代诗歌教学获奖课例,能够促进语文新手教师的专业发展,提高初中语文
利用极大子群的正规指数的概念得到有限群为可解、超可解、π-幂零、幂零等若干充要条件,并推广了多个已知结果.
目的:研究分析弓形虫重组蛋白质疫苗和DNA疫苗的实验研究方法。方法:拟分别构建含弓形虫靶抗原SAGl和GRA2的重组蛋白质疫苗和DNA疫苗,辅以合适的佐剂,优化免疫策略,选择合适
摘要:实践教学是高职教学的主要形式,实训室是实践教学的理想场所。本文通过对山东职业学院酿造酒实训室存在的问题进行认真分析,并结合实训室的建设实践,阐述了实训室建设与管理的几点措施。 关键词:酿造酒;实训室;建设;管理 中图分类号:G647 文献标志码:A 文章编号:1674-9324(2014)04-0216-02 在教育部“加强实训、实习基地建设是高等职业院校改善办学条件、彰显办学特色、提
氢能由于具有清洁、无毒和零污染等特点受到了世界各国的重点关注。传统制氢技术(如:化石能源制氢)获取的成品氢中均含有不同程度的杂质气体,如CO、N_2、CO_2和H_2S等,因此,如何将H_2分离出来是制取纯氢的一个重要环节。虽然钯及其合金(如Pd-Ag/Cu/Au)已被成功研发,但钯资源稀缺且价格昂贵,亟待开发低成本、高渗氢性能的新型氢分离金属膜材料。针对上述问题,全球各国学者将目标瞄准了价格低廉
根据公式推导,对格构式轴心受压柱的设计方法和步骤进行了改进,并通过实际算例,对改进前、后的设计方法进行了对比.
朱熹通过对《大学》思想的改造,建构起了"格物致知"的认识论:通过对万物之理的认识而体认最高存在的天理。对万物的认识有其必要性和方法性:认识是有其"至善"的方向,方法是由
面对不断增长的能源需求和日益稀少的化石能源,利用微电网技术实现分布式能源的本地消纳和调控以及利用能源互联网技术实现综合能源优化被认为是解决不同电源、不同负荷友好