面向主题的多源Web上结构化数据集成的研究与实现

来源 :东北大学 | 被引量 : 2次 | 上传用户:hayyangxiong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的不断发展,Web数据逐渐成为人们关注的焦点。Web上拥有着大量有价值的数据,其中Web源上的结构化数据就是其中之一。Web源上的结构化数据是指将Web源上的网页数据经过特定规则抽取后存储到数据库中的数据。如何对多个Web源上的结构化数据加以整合利用,即对多源Web上的数据进行集成,成为被人们广泛关注的研究领域。然而,Web上的结构化数据是Web数据的一种,它具有Web数据的特点,由于它存储于数据库中,也具有了数据库中的某些特点,与此同时,它是面向某个领域的,因此也具有了某个领域的数据特点,这些特点给其数据集成造成了诸多困难,本文研究的就是如何对多个Web源上异构的结构化数据进行集成。本文在研究Web数据集成的基础上,针对多源Web上结构化数据的特点,提出了一种基于领域知识库的数据集成的实现方法。领域知识库为领域知识的共享和基于知识的推理提供了基础。本文的主要工作包括以下几个方面:首先,针对多源Web上结构化信息的特点,给出了领域知识库的构建方法并初牛建立了核心领域知识库。以手机领域知识库为例,在得不到领域专家大力支持的情况下,利用采样、统计方法获取相关的核心领域知识;针对多Web源上手机数据的语义异构问题,提出了一种基于有序前缀树聚类的方法,对手机属性进行聚类,挖掘出领域知识之间的各种关系;在领域知识及其之间的关系基础上,基于本体的思想和构建方法构建领域知识库。其次,基于构建的领域知识库实现了对多个Web源上的结构化数据集成。以手机数据集成为例,集成过程包括数据加载、数据预处理、实体识别、合并重复实体和数据输出。在合并重复实体过程中,对要合并的数据进行了特殊的分词与组词,定义了同义词与反义词,改进了相似度比较算法Jaccard系数法,并提出了两种合并方法:基于Web数据资源的合并方法和基于相似度合并方法。最后,针对Web数据的海量性特点,提出了基于MapReduce框架来解决海量Web数据集成问题。本文应用上述所提到的技术,实现了一个原型系统,并在原型系统上进行了实验,验证了本文方法的有效性和优越性。
其他文献
在Web2.0时代,互联网已经成为包含人类社会各种知识的信息库,人们越来越依赖互联网作为查询信息的重要来源。其中,人物之间的关系是一类非常重要的信息。特别是当网民面对一个个
随着Internet的发展,传输层单宿端到端的通信协议TCP和UDP等在传输性能、容错能力和安全性等方面都受到了极大的挑战。传输层多宿端到端的通信协议如基于SCTP的多路同时传输C
信念修正是主体接受一个新的信念并将其加入到已有的信念集合中,且不会引起不协调的一个过程.在哲学、计算机科学,尤其是数据库和人工智能中,都有信念修正的逻辑形式化,对于信念
Web服务(Web Service)是构造下一代分布式计算平台的基本技术。单个Web服务所能够提供的功能有限,服务组合(Service Composition)通过集成现有的Web服务从而创建新的、高层的
近年来,随着Internet的飞速发展和生活中信息化水平不断提高,数据资源呈爆炸式增长,导致获取目的信息困难,信息的利用率降低,而高维数据日益成为主流,所以在实际的聚类应用中
线程池技术是提升多线程应用程序性能的重要技术,已经广泛地应用在各种网络服务器应用程序、中间件等领域。线程池的研究重心已经从静态线程池转移到动态线程池,然而,如何动态提
项目是指特殊的、将要被完成的有限个任务的集合。它是指在一定时间之内,满足所有目标的多项相关工作的总和。项目管理是指以项目为对象的系统组织管理方式。它通过搭建临时
在软件开发的过程中,需求项如果没有经过深入协商,并且没有在各涉众之间达成一致,会对后期的开发带来不必要的重复工作,导致开发成本上升,甚至项目失败。WinWin协商模型是一
互联网业务呈现出以用户为中心的融合趋势,多数机构已在管理域内实现单点登录和Web业务融合,而跨管理域的业务融合应用较少。流化业务在此背景下被提出,它是在互联网分布式计算
网络的不断发展使得信息安全成为网络应用不可缺少的技术基础,网络信息系统需要保护其真实性、保密性、完整性以及可追究性。公钥密码技术是信息安全的核心技术,它给电子商务的