论文部分内容阅读
大词林是一个自动构建的大规模开放域中文实体知识库,能够在搜索引擎中基于多信息源自动获取实体的类别并对类别进行上下位关系挖掘以构建层次化类别体系。目前,大词林的实体规模已经达到了一千多万,上位词规模也已经达到十八多万。在扩充数据规模的同时,大词林需要在细粒度的场景中考虑更好的方案实现同义关系挖掘和上下位关系挖掘。基于这样的背景,本文研究了三个小方向的内容以完成该目标。1.实体的同义关系挖掘。当实体规模增大时,内部冗余实体的数量也会相应增大。本文提出基于同义词词林的预训练词向量微调技术,相比于直接利用预训练词向量判断实体的同义关系,该方法充分利用了同义词词林这一外部同义词知识库,拉近语义空间中同义词的距离,同时拉远语义空间中非同义词的距离,该方法能够更加准确地判断出两个实体名称是否是同一个实体。2.上位词的概念路径融合。大词林中实体和上位词主要通过自动挖掘的方式获得,因此不可避免地出现一定的错误。而现有许多其他知识图谱中的上位词体系通过人工的方式构建。本文利用大词林的概念体系和其他知识图谱的概念体系,构建出概念路径匹配数据集,利用多种匹配模型挖掘出不同图谱中概念的对齐关系,并利用其对齐关系对大词林中上下位关系进行修正。3.细粒度的实体类型识别。大词林中目前已存在良好的上下位关系抽取模块,但随着上位词规模的增大,我们期望利用更加丰富的信息源判断去判断上下位关系。本文基于现有的细粒度实体类型识别方案,利用不同模型和增强策略测试在两种数据集下的指标,并将中文数据集的知识迁移到大词林中,以作为大词林上下位关系挖掘模块更加丰富的佐证信息。