论文部分内容阅读
科技是逐利的,人工智能作为当前最先进的科技之一,首当其冲的领域就是金融行业。在金融领域中,传统的行业研究员在做行业分析时,根据自身积累的行业知识,来判断新的数据对旧的状态的影响,但现在数据处于爆炸式的增长,传统的行业研究员几乎难以满足客户日益丰富的需求。在此背景下,本文提出了构建证券行业的金融知识图谱。知识图谱由Google于2012年提出,用来描述真实事件中存在的各种实体和概念及其相互关系,顾名思义,证券金融知识图谱描述的是证券金融行业的实体、概念和关系,它就像一个超级大脑,集众人之智慧,装下了证券金融行业的基本常识,释放研究人员简单重复的劳动,把更多精力放在研究更难的问题上。本文的主要贡献如下: (a)针对不同网站资源,提出了一种基于启发式规则的网页正文内容抽取算法,免去了传统的不同网站不同爬虫规则的繁琐,同时实际测试效果很好; (b)研究使用Deepdive从非结构化文本数据中提取股权投资关系; (c)创新性的提出基于图论算法分析证券金融市场中各实体之间的关系,包括基于最短路径算法分析两家公司最短投资关系以及最主要投资联系;其次使用深度优先搜索算法来检查两个实体之间是否存在共同投资者;由于图中包含大量的实体节点和边,对计算效率影响很大,采用图形压缩来减少计算的节点数量,提高效率。 本文构建的金融知识图谱以及基于金融知识图谱的投资关系分析已被实际应用于长江证券的新三板业务分析。