论文部分内容阅读
随着Internet技术的快速发展,网络计算已进入大规模分布式计算时代。这种分布式计算系统具有松耦合、动态性、分散控制等特点,其中一类最具典型代表的就是发布/订阅系统。发布/订阅系统能够使得信息交互的双方在时间、空间和控制流三个方面都完全被解耦,从而成为了新一代分布式计算技术的基础平台。 在现有的发布/订阅系统中,仍有两个关键问题需要解决,一是数据匹配的时效性问题,即在“大数据”分发的情况下,面对海量的信息资源,客户端节点却难以准确、及时地获取所需的信息;二是语义表达能力问题,如何对异构事件进行统一表示,以使系统能快速、正确理解各类事件的语义信息,从而提高系统中事件匹配的准确度。面向以上两个问题,本文从基于内容的角度出发,对发布/订阅系统中的事件匹配算法展开了研究。 首先,针对数据匹配的时效性问题,本文结合实际应用中,同一个订阅条件中不同谓词属性值的值域范围是不一样的这一特点,提出了基于谓词优先级的匹配算法(简称PPEM)。该算法根据不同谓词属性值的值域范围所映射的过滤事件的能力调整谓词的匹配顺序,再结合合理的数据结构,有效地提高了发布/订阅系统中事件分发的匹配效率。 接着,为了更进一步探究谓词的匹配顺序对事件匹配过程的影响程度,以及如何获取最优谓词匹配顺序的生成规则。本文首先通过构建匹配过程最优化模型,利用概率统计知识,严格证明了谓词匹配顺序是影响匹配性能的关键性因素,并推导出了获取最优谓词匹配顺序的生成规则;在此基础上,通过进一步优化数据结构,提出了新的词法匹配算法——基于匹配过程最优化模型的匹配梯算法(简称Match-Ladder)。通过实验对比分析得出:在订阅条件数量超过6000(含6000),事件数量为10000的情况下,PPEM算法和Match-Ladder算法的匹配时间比目前最有效的匹配桶算法分别减少了49.07%和53.64%。 最后,为了解决语义表达能力问题,本文利用本体语言Web Ontology Language(简称OWL)构建了发布/订阅系统事件语义匹配概念模型;选用资源描述框架(ResourceDescription Framework,RDF)作为事件模型的基础,使得事件可以被程序无歧义的理解和处理,并能在传输过程中不丢失语义信息;选用语句模式作为订阅条件表示的基础,降低了订阅条件存储和维护的成本。经过以上步骤,构建了适合语义匹配的数据模型。 基于该数据模型,本文设计了一种高效的基于语句模式的匹配算法。它的基本思想是以语句模式为基本单位进行匹配,不同订阅条件中的相同语句模式只需匹配一次,并利用计数法的思想:对订阅条件中匹配成功的语句模式进行计数,最终通过比较每个订阅条件成功匹配的语句模式个数与拥有的语句模式个数是否相等,以确定最终的匹配结果,从而避免了对图结构的遍历与回溯处理,降低订阅条件维护成本的同时也进一步缩短了语义匹配的时间。