从关系表到RDF知识库的数据映射与集成

来源 :中国人民大学 | 被引量 : 0次 | 上传用户：jkenclly

【摘要】

：

随着RDF越来越被广泛利用于知识管理领域，一个有着较大规模的RDF知识库就显得越来越重要。目前，大多数RDF知识库都是通过抽取和挖掘Web上的数据来创建以及扩大的。它们的数据源

【作者】

：

郭小燕

【机构】

：

中国人民大学

【出处】

：

中国人民大学

【发表日期】

：

2011年期

【关键词】

：

数据处理资源描述框架知识库关系表

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着RDF越来越被广泛利用于知识管理领域，一个有着较大规模的RDF知识库就显得越来越重要。目前，大多数RDF知识库都是通过抽取和挖掘Web上的数据来创建以及扩大的。它们的数据源局限在社会百科网站及社会标签网络，比如Wikipedia，WordNet，IMDB等等。这些RDF数据的精度也无法得到有效保证。为了能有效地利用RDF进行知识管理方面的工作，需要扩大目前RDF知识库的规模并提高目前RDF知识库的精度。　　本文构建了一个可以从关系表数据中抽取实体并将它们集成到RDF知识库中的原型系统——ITEM。该原型系统可以高效并准确地计算关系表和RDF知识库之间的模式匹配，并通过该模式匹配从关系表中抽取RDF知识库中不存在的实体，将它们集成到原RDF知识库中;抽取RDF知识库中己存在的实体，以此去更新原RDF知识库中不准确的实体数据。因此，ITEM通过利用高质量的关系表数据，可以有效地增大RDF知识库的规模，并提高RDF知识库的质量。　　本文提出了计算关系表和RDF知识库之间的模式匹配的算法，该算法只会利用关系表的元组实例信息，并不需要模式信息。对于从Web上抽取而来因此缺少模式信息的关系表来说，这点是非常有意义的。本文还将计算模式匹配的问题有效地转换成为已知的两个经典问题来求解:最大加权二分图匹配以及最大加权独立集。　　本文在寻找元组在RDF知识库中的匹配实体时，通过建立一种基于单词的倒排索引，对于每个元组，可以使用关键词搜索算法来有效地过滤理论上不是匹配的实体，从而使算法的性能有了很大的提升。　　本文在真实的数据集上进行了实验，实验结果表明ITEM原型系统在抽取实体时有着高精度和高效率。

其他文献

基于H.323的IVR系统的改进和实现

随着相关硬件和软件技术的发展和突破,VoIP得到越来越广泛的应用。VoIP简而言之就是将模拟声音讯号数字化,其最大的优势是可以广泛利用Internet和IP环境资源,提供多样化的业

学位

VoIPH.323IVRVXML

云数据管理中索引关键技术研究

随着互联网产业的迅猛发展，数据呈爆炸性增长趋势，海量数据的处理对计算能力的要求远远超出自身 IT架构的计算能力，云计算的概念应运而生。作为云计算的关键技术，云数据管理为业

学位

云数据管理索引技术数值计算存储系统

系统芯片主存访问性能与能耗优化技术研究

随着主存访问速度与处理器运算速度差距的日益增大，主存已经成为计算机系统主要的性能瓶颈。同时，主存容量和工作频率的持续提升，使主存能耗在系统总能耗中占据了更大的比重。因

学位

主存系统芯片访问性能能耗优化技术

基于居住健康领域的本体研究与应用

本体作为语义web的核心技术，具有较强地语义解释能力。研究针对专业领域的本体构建即领域本体的构建，将对专业领域的发展起到推动作用，能够进一步拓宽本体的应用范围。本文将领

学位

居住健康本体本体构建本体推理本体匹配居住健康评估系统

基于Web服务的工作流引擎的设计与实现

工作流技术起源于企业办公自动化领域，是实现企业业务流程建模、业务流程仿真分析、业务流程优化、业务流程管理与集成，从而最终实现业务流程自动化的核心技术。工作流引擎作为

学位

企业管理工作流引擎网页服务技术优化设计

3G院线平台业务应用层的设计与实现

随着社会和经济的发展,家庭是民生要素的综合载体,是经济、政治、社会、文化的全息缩影,在社会的信息化发展方面显得越来越重要。家庭信息化的目的是通过家庭的数字化和网络

学位

3G院线业务应用层大文件上传FleaPHP

基于BT协议的视频点播系统中节点管理策略的研究与实现

P2P流媒体技术的引入,使视频点播系统快速成为互联网中最受关注的应用之一。随着流媒体视频点播在校园网中的日趋流行,校园网络带宽被P2P应用逐步吞噬,已经开始影响到正常的

学位

对等网络视频点播节点管理流量本地化用户公平性校园网

面向嵌入式软件故障定位的程序谱方法研究

随着计算机技术的广泛应用,软件系统的规模和复杂性不断攀升,由于软件错误直接造成系统失效的比率持续递增。软件的故障定位可以提高测试阶段的效率,也是开发可靠性软件的重

学位

程序谱聚类函数嵌入式软件故障定位

基于双参数的区间值信息系统知识获取

信息系统中对象的属性取值往往不是单一的数值,可能是取值范围,我们称属性值为区间值的信息系统为区间值信息系统。区间值信息系统是一种重要的数据描述模型,它在工程建设、

学位

区间值信息系统区间数双参数(αβ)相容关系属性约简规则提取

基于旅游同业网的Web系统优化研究和实践

在互联网技术迅速发展的今天，Web系统的应用已经渗透到各个行业，随着用户数量的增多，企业对Web系统的需求越来越复杂，使Web网站的性能优化的问题显得更加重要。　　在目前互联网

学位

旅游行业同业网站系统设计性能优化

从关系表到RDF知识库的数据映射与集成

其他学术论文