Deep Web环境下数据源选择和结果缓存的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:wik2pwerq32
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,Web上的信息量呈爆炸式的增长。按照蕴含信息的深度,可以将Web划分为Surface Web和Deep Web两大类。在访问模式上Deep Web有别于Surface Web。Surface Web指那些可以通过超链接访问的、可以被传统搜索引擎索引的Web资源集合。而Deep Web中的数据隐藏在Web站点后台数据库中,不能直接通过URL链接访问,而只能通过查询接口访问。Deep Web中所包含的信息量是Surface Web中的400到500倍。而且,Deep Web中的信息都是针对特定领域的非常有价值的数据。所以,如能有效地利用这部分信息,能够更加充分地发挥Internet的作用。要充分利用Deep Web中的数据,就要解决两方面问题:一是要保证查询结果的高质量,二是要保证查询的效率。要保证查询质量,数据源选择是非常关键的一步。现有的Deep Web数据源选择策略一般只关注数据源的查询接口,不适用于对同一领域下的数据源进行选择。为了解决这个问题,本文提出了综合多种因素的数据源选择模型DSSM,基于此模型实现数据源选择。DSSM针对用户查询,不但考虑了数据源的查询接口模式,而且考虑了数据源的搜索模式,后台数据库的内容,以及数据源的质量情况,能够选出最有能力满足用户查询请求的、具备丰富资源而又最准确的、高质量的数据源。要保证查询效率,缓存是必不可少的。由于Deep Web自身特点,现有的缓存系统不适用于Deep Web数据集成。对此,本文提出了应用于Deep Web数据集成中的结果缓存模型RCM,基于此模型实现对集成结果的缓存。RCM是基于硬盘和内存进行存储的,存储的对象为查询对应的多个结果记录和原始页面。在RCM模型中着重解决了以下问题:存储格式定义、数据一致性保证、分布式存储平衡和缓存优化问题。在Deep Web数据集成中加入缓存后,大大缩短了系统响应时间,提高了系统的效率。
其他文献
无线传感器网络是近年来信息技术领域的一个研究热点,它集成了无线通信、感知、嵌入式计算、网格计算等技术,是一种典型的无基础设施通信网络。无线传感器网络这门新兴的技术可
多媒体的不断普及,它已经成为了我们获取信息的一个重要手段。与此同时,视频安全播出的形势也愈发严峻。数字视频的播出环节比模拟视频复杂得多,播出中常产生的多种异态,而节
移动终端的普及和网络性能的提升使视频的实时交互式传播成为可能,作为其中的典型代表,近年来出现的个人直播平台已达数十家,用户在此类平台上不仅可以作为看播端观看视频,也
随着流程工厂设计领域中信息技术的应用从单纯的CAD技术在各设计专业中的应用阶段发展到以网络技术、数据库技术、人工智能技术、现代管理技术等为基础的综合业务流程管理系
大型公共环境人员疏散路径规划研究对指导安全设施建设、应急预案的制定、实施和摊演都有重要意义。近年来进化计算领域兴起的分布估计算法为路径规划问题的解决提供了新的优
在过去的几十年里,传统的关系数据库管理系统在商业数据管理中发挥了非常重要的作用。但是,近年来随着计算机应用技术,特别是Web信息技术的不断发展,当今的数据呈现出了两大
在互联网上,大部分服务器郡是因为服务器的配置不当或女装小正确而被攻击,只要修补已知的安全漏洞,就可以抵抗绝大部分的黑客入侵。但是目前很多企业购买的网络安全产品都采
随着日前日益发展的计算机技术和网络技术,信息安全已经成为人们日益关注的热点领域。作为其重要组成部分的信息隐藏检测也进入一个高速发展时期,而对信息隐藏检测的评估也成为
近年来,自然语言处理的研究已经成为热点,而分词与词性标注两个任务作为自然语言研究领域的一个重要分支,同样为大家所关注。分词与词性标注的是自然语言处理的预处理部分,占
如何减小用户使用Web服务的难度,提高对Web服务的使用效率,是当前服务计算相关的一个热点研究问题。现实中,同一类业务需求和同一类Web服务都会存在不同出处的多个版本。如何应