论文部分内容阅读
全球范围内伴随着云计算,大数据,人工智能等新兴技术的落地,互联网的数据量每两年翻一番,为了更好的分析及应用互联网数据,国内外学者及机构提出知识图谱概念。知识图谱将客观世界中概念,实体及其关系以结构化的形式呈现,以更直观让人类认识世界的形式将互联网的信息进行表达,在管理、组织及分析应用互联网信息上发挥出了巨大的作用。目前,知识图谱已经在医疗、商业及交通等行业领域得到了较好的应用且取得了良好的效果。但是目前针对金融行业的知识图谱相对较少,很多公司的金融图谱因信息的私密性不对外开放且应用时发现有隐含的关系尚未连接,因此在知识图谱构建完成后,后续的补全工作也变的尤为重要。经典的知识图谱补全模型往往只关注知识图谱中相邻的两个节点所组成的路径,忽略了节点与其它多个节点所组成的关系路径所带来的信息。本文针对金融图谱缺乏问题及知识图谱补全模型的缺陷,先利用金融股票及企业信息进行金融知识图谱构建,一方面以金融股票等信息为例描述金融知识图谱的构建方法,另一方面为后期知识补全任务提供基础数据集,然后提出基于组合关系路径的知识图谱补全方法对金融知识图谱进行补全任务验证。主要工作包括:1.基于金融知识图谱的缺乏及隐私问题,通过自底向上的知识图谱构建方法,爬取了股票网站—东方财富、百度股票,企业网站—企查查及相关金融论坛的金融股票,法人信息,通过自然语言处理算法进行企业实体、法人实体及实体间关系的抽取识别,最终清洗整理后导入neo4j图数据库,阐述了构建小型金融知识图谱的主要流程,完成金融知识图谱的构建,并为后期的知识补全工作提供基础数据集。2.对现阶段平移模型仅考虑两点之间相连的缺陷,基于节点之间连接的方向所代表的不同‘角色’,提出了基于组合关系路径的知识图谱补全模型,以节点之间的共现概率详细描述了在三节点结构下三种不同的关系路径连接模式,得到节点的向量表示,并通过负采样及随机梯度下降法进行模型优化。最终以本文中构建的金融知识图谱及Freebase数据集为数据来源验证了方法的有效性。