论文部分内容阅读
随着经济社会的不断发展,各行业对信息的需求越来越迫切,这在金融领域尤为明显,金融从业人员需要结合各种行业信息实现对公司的背景调查、风险预估等。但金融领域的大部分信息是通过公司公告、研究报告等形式发布,需要专业人员阅读大量文档,造成人力资源上的浪费。信息抽取技术(Information Extraction)是自然语言处理中非常重要的一个分支,主要解决从半结构化或非结构化的数据中抽取出各类结构化信息,使用这种技术解决金融公告类信息文本的抽取,具有极大的现实意义。事件抽取是信息抽取研究中最具挑战的任务之一,旨在利用计算机从文本中自动抽取特定类型的事件及其事件元素。例如,从金融公告中抽取职务变动类事件的信息,包括人员、组织机构、职位等。金融公告类文本数据有非常明显的特点,通常一个公告文本会通过规范简洁的语言表述一个金融事件,并在某个事件句中披露出金融公司的目前经营活动。由于金融领域对信息准确性的要求极高,而且缺乏大规模标注数据,因此对这类文本的信息抽取较为困难。本文的主要贡献有:1.对金融公告类文本的信息抽取做了研究。由于金融公告对信息准确性的要求,本文提出使用同义词表解决专有词汇识别问题,并结合BILSTM+CRF模型解决部分开放性实体识别和语义角色标注任务,最终得到金融领域事件句的事件元素。2.基于抽取得到的三元组信息等,构建金融领域知识图谱,并提出一个完整的构建系统。本文基于公告类文本抽取得到的数据,结合一些原始数据构建出金融领域知识图谱。3.基于此金融领域知识图谱,本文提出一种问答功能解决方案。基于知识图谱的问答系统是知识图谱的一个现实应用。本文根据金融领域特点,结合用户需求等给出一个领域知识图谱问答功能的解决方案。总体而言,本文提出一种基于专业词典的规则方法,并结合深度学习模型实现了金融领域的信息抽取,并构建出一个金融领域知识图谱。基于此知识图谱,本文设计并实现了一个问答模块。系统的测试环节验证了本文所提出算法的有效性,并满足了系统需求,有较强的实用性。