证券知识图谱构建系统的设计与实现

来源 :东华大学 | 被引量 : 0次 | 上传用户:dorothyhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱本质上是语义网络,它将不同种类的信息连接在一起得到的一个关系网络。领域知识图谱又称为行业知识图谱或垂直知识图谱,是面向某一特定领域,由专业数据构成的行业知识库,在面向行业的智能搜索、智能问答、智能推荐、情报分析等方面发挥了重要作用。目前领域知识图谱主要参照通用知识图谱的构建方法和步骤进行构建,通常根据领域知识需求实现数据采集、关系抽取、数据管理、和数据应用。本文面向证券领域,从互联网公开的证券公告中收集数据,构建知识图谱,挖掘企业股权人员、企业证券产品等金融关系,展示企业发展状态为相关从业者提供投资参考。本文重点研究构建知识图谱的流程和关键技术方法,基于证券公告建立知识的本体结构,设计了数据采集、任务管理、知识获取、数据管理等系统功能,并利用实验室的相关工具实现了知识图谱三元组的数据标注和关系抽取任务,最终完成系统的开发和部署。本文主要的工作如下。(1)数据采集任务管理的设计与实现。本文以Django框架为核心,基于Selenium自动化测试工具编写数据采集脚本,并添加了采集容错和采集数据重复避免机制确保数据稳定采集。系统将采集脚本抽象封装为采集任务,并提供对任务的统一管理功能。系统基于Celery异步任务框架实现了任务的定时执行,以获取数据源的最新领域数据,并通过实现Celery路由的动态更新解决Celery队列拥塞问题,以实现采集任务并发执行。(2)领域知识本体构建与关系三元组的设计与实现。本文使用spaCy预训练的中文模型对数据集进行命名实体识别,使用聚类工具获取每类实体下主要实体,结合领域知识构建领域本体结构。比较目前最新的端到端的关系抽取模型,选择了LTRel作为系统关系抽取的工具实现知识抽取,并使用Neo4j数据库保存关系三元组。系统提供知识查询界面,并使用Echarts可视工具将查询结果可视化。(3)系统应用部署。采用Docker容器技术实现系统在服务端的部署。分析开发环境下的系统架构,明确系统运行依赖的服务。明确系统部署架构,完成了工具安装和Docker容器划分等部署环境准备工作。使用Dockerfile文件实现各个容器的配置和初始化,并使用Docker-compose工具对系统中多个容器进行启动配置。在原有系统的目录下添加了以上容器相关配置文件或文件夹,使得系统部署环境下的目录结构与开发环境有所不同。采用增量部署的方式进行多容器系统的部署,以解决系统部署过程中遇到的兼容性错误。
其他文献
椭圆是自然界最常见的几何形状之一,现实中的许多物体都具有椭圆的几何特征。在计算机视觉领域,椭圆检测一直是一项基础、重要的任务。在实际应用中,目前的椭圆检测算法还面临着许多问题,例如漏检小椭圆、复杂背景下的目标检测结果中会出现重复椭圆、检测速度不够快难以在线应用等。针对这些问题,本文提出了基于弧段提取的椭圆检测算法,该算法用双阈值从图像边缘中提取出椭圆弧段,将不同类别的三段弧组成三元组,三元组受到弧
回归缺陷指在程序的开发过程中,由于开发或维护人员错误的修改导致正常的工作的程序功能无法正常运行。研究人员们提出了多种回归缺陷定位技术,但很少有研究工作用于定位多线程环境下的并发回归缺陷。并发回归缺陷研究的一个主要的挑战是社区缺乏用于实验的并发回归数据集。为了促进并发回归缺陷领域的研究,并提供一个有效的研究评价基准,本文主要完成了以下工作:(1)基准项目调研。调研了并发和回归缺陷领域的优秀成果,统计
随着移动互联网的快速发展,在线社交成为人与人之间交流的一种重要方式。尤其是在最近的几年,凭借着庞大的用户群体,微博、Twitter、Facebook等社交网络平台获得了巨大的商业价值,但是为平台作出贡献的活跃用户及优质内容的发布者却未得到应有的收益。此外,在传统的网络社交平台中,用户在平台上产生的数据都由中心服务器进行存储,平台可以获取用户的所有信息,这种中心化的数据存储方式,存在着用户信息泄露和
可达性查询处理是图数据管理与分析的基本操作之一,一直以来都是研究者广泛关注的热点问题。现有方法通常使用树区间或者基于部分结点的2hop标签来加速查询处理的速度。实际应用中,这种加速查询处理的方法存在两方面的问题。一是在给定特定数据图的前提下,没有人研究应该使用哪种索引比较合适;二是即使使用了树区间或者基于部分结点的2hop标签,也没有人研究应该使用多少个区间或者使用多少个结点来构建2hop标签才合
k步可达查询处理在现实世界中有着广泛的应用,例如好友推荐、交通线路查询、网络路由等。k步可达查询用于回答两个顶点之间是否存在一条长度不超过k的路径。相较于传统的可达性查询,k步可达查询可以提供更多的信息。然而,现有的k步可达查询算法大多只能应用在有向无环图上。能应用于带环有向图的k步可达查询算法又存在索引规模大,索引构建时间长以及查询效率低等诸多问题。本文研究带环有向图上的k步可达查询处理问题,研
在企业信息系统相关的软件开发项目中,软件需求的相关工作贯穿着整个软件开发生命周期的始末。需求开发的质量和需求管理的效率对于每个软件开发项目是否成功有着直接的影响。本文首先介绍了软件需求的概念及其在软件开发项目中的作用。其次,本文以软件项目管理中的需求过程为研究对象,对国内外需求工程的现状加以了解,对需求开发和需求管理的理论做了整理,对需求工作中的常见问题加以总结,并着重分析了质量管理五要素之一的“
乳腺癌作为常见癌症之一,时时刻刻威胁着女性的健康。核磁共振检查作为乳腺癌最常见的影像筛查技术之一,对乳腺癌的早期筛查有着重要的意义。随着影像学技术的高速发展和迅速地迭代更新,磁共振弥散加权(DWI)、动态增强磁共振(DCE-MRI)、磁共振波谱分析等成像技术频繁地应用在乳腺癌的临床筛查中,为乳腺癌患者临床诊断的各个阶段带来了福音。目前许多研究人员研究多模态的医学影像融合技术,通过结合多种模态下的医
对于集成了众多处理器核心的众核处理器平台来说,无论是充分发挥其并行计算能力,亦或是有效提升其生命期可靠性,都需要合适的众核基础软件工具加以支撑。基于这种需求,本文在研究并设计出相关众核软件映射算法的基础上,实现了一款众核软件映射工具。本论文的具体工作如下:(1)基于动态规划思想,设计出了一个吞吐率单目标优化的映射算法。本算法在任务分配过程中通过动态调整任务子图负载的期望值,有效地改善了由于结点的颗
海量的程序设计领域文本,存在大量的领域词语。jieba分词用于通用领域,已经取得较好的效果。但是,由于部分程序设计领域词语没有在分词词典中出现,因此,jieba分词用于程序设计领域的分词结果的准确性不高。如果能使用新词检测算法从领域文本中检测出这些领域词语,就可以扩充专业词库,从而提高程序设计领域的中文分词效果。同时,离散化的领域词语通过知识图谱的方式组织起来,可以帮助程序设计的学习者进行更加高效
随着物联网技术与应用的快速发展,物联网在家庭和商业领域发挥着越来越重要的作用,为提高生活质量和促进世界经济增长做出了极大的贡献。但由于物联网中存在海量数据,并且大多数的物联网应用都采取无线通信方式,故物联网中存在着潜在的隐私泄露威胁。首先,物联网感知层设备相比传统计算机更容易受到攻击,特别是某些时候小型家用的智能设备会在用户无意识的情况下收集数据,导致其所收集的数据包含更多的隐私敏感数据,并且感知