从关系表到RDF知识库的数据映射与集成

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:jkenclly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着RDF越来越被广泛利用于知识管理领域,一个有着较大规模的RDF知识库就显得越来越重要。目前,大多数RDF知识库都是通过抽取和挖掘Web上的数据来创建以及扩大的。它们的数据源局限在社会百科网站及社会标签网络,比如Wikipedia,WordNet,IMDB等等。这些RDF数据的精度也无法得到有效保证。为了能有效地利用RDF进行知识管理方面的工作,需要扩大目前RDF知识库的规模并提高目前RDF知识库的精度。  本文构建了一个可以从关系表数据中抽取实体并将它们集成到RDF知识库中的原型系统——ITEM。该原型系统可以高效并准确地计算关系表和RDF知识库之间的模式匹配,并通过该模式匹配从关系表中抽取RDF知识库中不存在的实体,将它们集成到原RDF知识库中;抽取RDF知识库中己存在的实体,以此去更新原RDF知识库中不准确的实体数据。因此,ITEM通过利用高质量的关系表数据,可以有效地增大RDF知识库的规模,并提高RDF知识库的质量。  本文提出了计算关系表和RDF知识库之间的模式匹配的算法,该算法只会利用关系表的元组实例信息,并不需要模式信息。对于从Web上抽取而来因此缺少模式信息的关系表来说,这点是非常有意义的。本文还将计算模式匹配的问题有效地转换成为已知的两个经典问题来求解:最大加权二分图匹配以及最大加权独立集。  本文在寻找元组在RDF知识库中的匹配实体时,通过建立一种基于单词的倒排索引,对于每个元组,可以使用关键词搜索算法来有效地过滤理论上不是匹配的实体,从而使算法的性能有了很大的提升。  本文在真实的数据集上进行了实验,实验结果表明ITEM原型系统在抽取实体时有着高精度和高效率。
其他文献
随着相关硬件和软件技术的发展和突破,VoIP得到越来越广泛的应用。VoIP简而言之就是将模拟声音讯号数字化,其最大的优势是可以广泛利用Internet和IP环境资源,提供多样化的业
随着互联网产业的迅猛发展,数据呈爆炸性增长趋势,海量数据的处理对计算能力的要求远远超出自身 IT架构的计算能力,云计算的概念应运而生。作为云计算的关键技术,云数据管理为业
随着主存访问速度与处理器运算速度差距的日益增大,主存已经成为计算机系统主要的性能瓶颈。同时,主存容量和工作频率的持续提升,使主存能耗在系统总能耗中占据了更大的比重。因
本体作为语义web的核心技术,具有较强地语义解释能力。研究针对专业领域的本体构建即领域本体的构建,将对专业领域的发展起到推动作用,能够进一步拓宽本体的应用范围。本文将领
工作流技术起源于企业办公自动化领域,是实现企业业务流程建模、业务流程仿真分析、业务流程优化、业务流程管理与集成,从而最终实现业务流程自动化的核心技术。工作流引擎作为
随着社会和经济的发展,家庭是民生要素的综合载体,是经济、政治、社会、文化的全息缩影,在社会的信息化发展方面显得越来越重要。家庭信息化的目的是通过家庭的数字化和网络
P2P流媒体技术的引入,使视频点播系统快速成为互联网中最受关注的应用之一。随着流媒体视频点播在校园网中的日趋流行,校园网络带宽被P2P应用逐步吞噬,已经开始影响到正常的
随着计算机技术的广泛应用,软件系统的规模和复杂性不断攀升,由于软件错误直接造成系统失效的比率持续递增。软件的故障定位可以提高测试阶段的效率,也是开发可靠性软件的重
信息系统中对象的属性取值往往不是单一的数值,可能是取值范围,我们称属性值为区间值的信息系统为区间值信息系统。区间值信息系统是一种重要的数据描述模型,它在工程建设、
在互联网技术迅速发展的今天,Web系统的应用已经渗透到各个行业,随着用户数量的增多,企业对Web系统的需求越来越复杂,使Web网站的性能优化的问题显得更加重要。  在目前互联网