论文部分内容阅读
随着互联网技术的快速发展,Web已经成为一个巨大的信息宝库,拥有海量的数据,成为人们日常生活、电子政务和电子商务等领域不可或缺的部分。为了有效的利用Web上的数据资源,目前已经有很多专门用于Web数据处理的方法:Web数据挖掘、Deep Web数据集成、利用语义技术重构Web而建立的语义Web等。数据空间是针对新的数据特点和数据管理技术的抽象与概括,其本质是解决数据集成问题。数据空间是一个实体所拥有的所有数据的集合。Web数据空间系统是通过集成演化的构建方法,为实现用户所关心的Web上数据访问而建设的一个可持续改进的与可逐渐实现Web语义集成的Web数据集成系统。建设Web数据空间系统的目的是为个人或组织有效地利用Web数据提供一种解决方案。围绕如何构建一个Web数据空间需要解决的关键问题:系统框架、数据模型、数据源选择、模式集成、访问控制等方面开展了研究工作,具体的研究成果如下:(1)提出了Web数据空间的系统框架与构建原则。在数据空间数据集成理念的基础上,结合Web数据的特点,分析了Web数据空间的一些主要特征,给出了构建一个Web数据空间系统的一些基本原则:能够管理Web上的所有数据、使用集成演化数据构建原则、充分利用现有技术、利用协作方式、便利的数据分享方式等。设计了Web数据空间的系统框架,给出了各部分的详细功能,最后详细的讨论了使用显式反馈与隐式反馈实现Web系统空间进化的一些问题。(2)设计了Web数据空间系统的数据模型。基于RDF模型,设计完成了Web数据空间数据模型。模型首先通过RDF建立了一个数据视图,该视图实现了Web上所有数据的统一表示。具体应用时需要针对具体类型的数据进行实例化,具体的实例化模型包括:网页数据、文件&文件夹、Deep Web、数据流、关联数据等。该模型可以实现Web上所有数据的统一建模,在单一模型内部实现非结构化、结构化以及结构化数据的统一表示与访问。(3)提出了一种基于用户查询与数据源中间模式关联度、数据源数据质量、数据源最小查询代价综合考量的Web数据源选择方法。该方法分为两个阶段:第一个阶段根据查询与数据源的关联度、数据源质量选择数据源;第二个阶段使用最小查询代价模型动态选择第一阶段已经选择的数据源,满足用户k个查询记录的需求。在最小查询代价模型算法的设计中,使用了最大熵模型计算数据源之间的重复度。(4)提出了一个Web数据空间数据模式集成与映射方法。首先给出了Web数据空间模式集成的框架,然后运用组合的方法,基于K-中心点算法实现了中间模式的自动集成,最后提出了使用Top-k个模式与用户查询进行映射与匹配的方法,提高了用户查询的准确率与召回率,同时给出了使用集成演化的方法提高查询精度的方法。(5)设计了一个细粒度的基于上下文的访问控制模型。基于XACML模型,运用目前的一些语义技术:使用OWL描述主体、客体、操作与环境,使用SWRL实现语义推理,设计完成了一个细粒度的可以实现对关联数据数据空间的访问控制模型。模型中使用语义范围方法大大减少了访问规则的定义,相关语义技术的使用可以实现对数据空间数据上下文的访问控制。