面向中文文献的金矿时空属性信息抽取及知识图谱可视化表达

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:likezzz21cn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代背景下,数据已经成为最具竞争力的资产。非结构化地质文本数据成为矿产大数据的一种重要数据源。特别是地质期刊文献更新快、数量大,表达的知识较为前沿新颖,内容表述规范,包含知识密集丰富。本文采用“语料库构建-信息抽取-知识图谱可视化表达-原型系统”的技术路线,开展面向中文文献的金矿时空属性信息抽取及知识图谱可视化表达研究,采用深度学习模型实现金矿信息提取与语义分析,利用知识图谱技术方法实现金矿信息的可视化表达,为金矿大数据的深度挖掘和利用提供有力的数据基础和技术支持。主要研究内容与创新点包括以下几个方面:(1)金矿信息标注语料库的构建。收集2000年至2020年《矿床地质》、《岩石学报》、《地质找矿》等期刊发表的文章,归纳总结金矿描述特征,制定金矿信息标注规范,基于自主研发的“交互式矿产信息标注软件”,构建金矿信息标注语料库,为金矿信息提取提供标准化的训练和测试数据。(2)基于双分支聚合模型的金矿实体与属性信息抽取方法。针对金矿实体与属性信息描述特征,设计基于双分支聚合模型(BERT+Bi LSTM+CNN+CRF)的金矿实体与属性信息抽取方法。基于小规模的金矿实体与属性信息标注数据对BERT(Bidirectional Encoder Representations from Transformers,BERT)模型进行参数微调;然后,采用双向长短期记忆模型(Bidirectional Long Short-Term Memory,Bi LSTM)与卷积神经网络模型(Convolutional Neural Network,CNN)分别对BERT的输出进行特征提取,聚合两个分支所获得的特征;最后,条件随机场(Conditional Random Field,CRF)利用聚合特征预测金矿实体和属性信息类型标签。实验对比分析了CRF、BERT+CRF(ori-BERT)、BERT+CRF(wwm-BERT)、Bi LSTM+分类器、Bi LSTM+CRF、BERT+Bi LSTM+CRF(ori-BERT)、BERT+Bi LSTM-CRF(wwm-BERT)等不同模型组合的金矿实体与属性信息抽取结果,验证了深度学习模型对金矿实体与属性信息抽取的适用性与有效性。实验结果表明,使用双分支聚合模型对金矿实体与属性信息抽取效果最好,金矿实体信息提取F1值为94.27%,时间属性信息提取F1值为94.87%,空间属性信息F1值为92.89%,非时空属性信息提取F1值为90.78%。(3)研究基于CNN、Attention+Bi LSTM、Transformer三种不同模型的特征抽取器,实现金矿实体关系、金矿实体与时空属性信息的关联关系识别。实验结果表明:与Attention+Bi LSTM、Transformer相比,CNN能够较好地提取金矿实体关系、金矿实体与非时空属性关联关系、金矿实体与空间属性关联关系,取得F1值分别为93.64%、88.18%、83.47%;Attention+Bi LSTM模型对金矿实体与时间属性关联关系的效果最好,F1值为89.84%。(4)金矿知识图谱可视化表达以及原型系统。依据金矿文献中信息描述特征,构建金矿知识表达模型。基于金矿时空与属性信息结构化抽取结果,以金矿知识表达模型为指导,借助通用的三元组<节点1、关系、节点2>知识表示方式,使用开源的EChars建立基于语义网络的知识图结构,实现金矿知识图谱可视化表达;研发金矿时空属性信息抽取与知识图谱可视化表达原型系统,实现金矿文献数据的查询、金矿信息提取、金矿信息抽取结果评价、金矿知识库等功能。
其他文献
工业机器人因加工等误差源的作用,定位精度较差,适用范围受到了限制。然而,随着“中国制造2025”概念的提出,航天制造等领域对工业机器人精度提出了更高的要求。并且针对现有测量仪器效率低下等缺点,本文研制一台应用于机器人标定的变臂长便携关节式坐标测量机,实现定位误差补偿。主要内容如下:(1)建立了一种基于MDH的工业机器人运动学模型。分析UR5型工业机器人结构特点及工作模式,建立基于MDH模型的UR5
气动调节阀是工业生产过程中必不可少的终端执行元件,其控制性能的好坏将直接影响整个生产系统的产品质量和安全运行。而智能阀门定位器作为调节阀的核心配件,可以有效改善调节阀的动作特性,提高阀位控制的精度和速度,因此针对智能阀门定位器的改进型研究显得至关重要。基于此,本文以ZJHP型气动调节阀为被控对象,搭建了阀位控制系统实验平台,并重点对智能阀门定位器的内部控制算法进行了研究。论文的主要研究工作如下:(
随着工业化水平的不断提高,机器人技术得到长足发展,作为机器人感知空间全力信息的重要媒介,六维力传感器的应用也越来越广泛。在机器人作业智能化、精细化发展的趋势下,对高性能六维力传感器的需求日趋强烈,本文针对六维力传感器特性中最为重要的静态、动态与温度特性,从结构原理、静态标定、动态建模与补偿、温度漂移与补偿等方面进行深入研究,主要内容如下:1.针对六维力传感器静态特性研究问题,搭建了传感器静态标定系
随着社会的不断发展,能源的发展与利用在世界各国的关注度不断提高。伴随着煤炭、石油等资源大量消耗,部分资源面临枯竭,随之带来了大量环境问题,制约着各国的经济发展,低能耗、低污染的低碳经济发展模式被世界各国所重视。这意味着在保证一定生产率的前提下,降低生产能耗十分必要。因此,本文以工件流失率和生产能耗为优化目标,研究了考虑能耗的多目标传送带给料加工站(Conveyor-Serviced Product
随着集成电路的快速发展,BGA封装型FPGA,即现场可编程逻辑门阵列,凭借着其功能强大、开发周期短、体积不大等优点越来越多地应用到空间技术、移动通信、雷达电子等领域。针对现有FPGA焊接点失效故障评估方法存在的无法提供准确的信息、样本数据少、时效性不高等问题,本文在众多国内外学者研究的基础上,结合GA(遗传算法),提出了利用改进LS-SVM(最小二乘支持向量机)对FPGA焊接点失效故障进行评估研究
输电塔螺栓是输电塔的重要部件,广泛应用于输电塔的各类重要连接件中,螺栓螺母的脱落会引发输电塔部件结构松动等问题。为了防止螺栓螺母的脱落,销子的存在与否对输电线路的安全有着十分重要的影响。现代日益庞大的输电网带来越加繁重的输电线路巡检任务,加之受限于无人机和直升机等现代远程人工检测技术的时效性和经济性,亟待开发输电塔螺栓销子缺失的实时检测方法。本文针对现有输电塔螺栓销子检测模型泛化能力不足的问题,面
随着计算机软硬件技术的发展,研究者们开始尝试将模型预测控制推广应用至汽车、航空航天等快动态领域。然而传统的模型预测控制需要在每个采样间隔内求解一个开环最优控制问题,高负荷的在线运算使得模型预测控制现主要应用于慢动态的过程控制领域。快速的最优控制求解算法和高效的模型预测控制计算框架则是解决这一问题的关键。asNMPC通过单步超前预测、优化求解、敏感性更新手段,大大缩短了从获得状态测量到施加反馈控制的
近年来,网络控制系统(Networked Control Systems,NCSs)以其成本低、维护方便、安装方便、灵活性高等优点而备受关注,且NCSs在航空航天、智能电网、故障检测系统和机器人等领域得到了广泛的应用。然而,值得注意的是,与传统控制系统的研究不同,由于在反馈回路中引入了通信网络,在NCSs的研究中出现了一些新的棘手问题,例如网络诱导延时和数据包丢失。这可能会导致性能下降,甚至使系统
电力负荷预测是通过历史数据推测未来负荷的发展趋势。进行高准确度的负荷预测可以为电力系统的规划、运行、调度提供决策参考依据,从而确保供电可靠性,提高经济效益。对山区进行电网负荷预测时存在以下问题:1)山区电网负荷数据的采集方式自动化程度低,设备老旧,通信困难,容易缺数据或产生一些异常数据;2)山区电网接入较高比例的分布式电源,其负荷容易受到各种特征因素的影响,直接按照负荷历史数据预测精度低;3)山区
表面等离激元(SPs)传感器具有灵敏度高、实时快速、制备简单等优点,广泛应用于临床医学、食品安全以及生化传感等领域。基于SPs不同模式,SPs传感器可分为表面等离激元共振(SPR)与局域表面等离激元共振(LSPR)类型。与SPR不同的是,LSPR可显示金属纳米结构(如颗粒)的局域共振模式,且具有高比表面积,为低浓度的分析物与金属纳米结构的结合提供更多的结合机会,同时,通过LSPR共振峰位的移动可检