面向关联数据的实体对齐方法研究

来源 :北京化工大学 | 被引量 : 3次 | 上传用户:yangqun0215
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无论是在传统Web场景还是语义Web场景下,知识互联始终是一个重要的问题,大规模知识图谱的构建为此提供了坚实的基础,知识图谱中的一个重要的部分就是多数据源之间OWL:sameAs链接的发现,这也是实体对齐(Entity Alinment)工作所要解决的问题。关联数据集之间的描述异构性使得适用基于模式的方法效果并不是很好,实体链接存在缺失。利用独立于模式的链接发现方法则可以在兼顾数据语义标签特征及统计特征的基础上发现缺失链接。本文通过将传统的基于模式下属性规则的对齐问题转换为独立于属性的二分类问题,针对关联数据集特殊场景,通过对数据集的语义特征抽取以及对抽取后的特征向量进行特征分析,在此基础上提出了一种基于机器学习分类算法的实体对齐算法,在关联数据集上的实验证明了此方法有助于一些缺失links的发现,并将此方法应用于设计、构建链接发现系统。主要研究内容如下:(1)对关联数据集合进行语义特征解析,提出了一种面向关联数据集的基于属性文本语义特征的实体对齐方法(Semantic Features based Entity Alignment,SFEA)。该方法充分利用关联数据作为对齐工作的数据来源,在对RDF数据进行语义特征解析的基础上,使用JSON技术并结合语义标签特征划分得到主要有效的九大类文本信息,构建具有显著语义特征的文本向量集待用。为了减少文本处理的工作量,本文还引入了倒排索引来生成候选实体集合。(2)特征向量构建匹配过程中,为了保证评估可靠性,使用MapReduce模型框架实现属性文本序列化计算工作,使用key-value形式存储信息,并综合选取具有较好类别区分能力的五大类综合性TF·IDF统计方法对文本特征进行建模,在筛选过滤有效信息的同时最大程度保证了候选实体对完整性,降低了计算复杂度。(3)提出了一种适用于大规模数据集合有监督的机器学习分类算法,利用特征向量信息以及关联数据集中特有的已存链接信息对数据集实体间关系进行有效分类。分类器生成过程中,一方面使用广泛验证有效的C4.5算法学习得到基本分类器,另一方面为得到性能良好的综合分类器使用改进的Adaboost算法扩展使用训练数据,最终得到性能良好的综合分类器,进而在大规模数据集上使用训练好的模型对实体关系进行分类。(4)将基于机器学习的实体对齐算法应用到了实际的实体链接构建系统设计中,本文在典型关联数据集合上进行了实验,对算法的实际对齐效果进行了有效测试。
其他文献
汽车驾驶模拟器将虚拟现实技术应用于汽车虚拟驾驶系统中,实现汽车驾驶的虚拟训练,是一种安全、高效的训练手段。将驾驶模拟系统应用于新型汽车的数字化设计,直观地测试汽车
当前处于创新、创业巅峰的电子商务行业对人才的需求已非传统电子商务专业培养模式所能满足,需要全方位多方协作打造全新的育人模式和构建相应的多层次电商人才培养质量评价
在永磁电机动态控制优化的研究中,为了提高控制精度,提出一种新型的基于滑模控制的永磁同步电机矢量控制方法。通过在滑模观测器的基础之上改变切换函数,降低了观测器输出抖
本文从K-L变换的思想和理论依据入手,阐述了特征提取的目的,并解释了K-L变换和主成分分析(PCA)的区别。最后,以iris数据作为样本,采用K-L变换对其进行分类,并得出结论:该变换
<正>知识青年(以下简称"知青"),已成为一个专有名词,是一代人的代名词。目前,关于知青身份的认定没有太大分歧,大抵认为是"文化大革命"期间,尤其指1968年12月22日毛泽东"最高指
针对太阳能双轴跟踪控制问题,给出了跟踪轨迹的设计方法、控制策略以及硬件接线方法,设计了一种可以应用于不同地理位置、不同时间和不同约束的双轴跟踪支架的通用控制器。同