论文部分内容阅读
为了支持海量数据存储和处理、高并发处理、高性价比、高可用性等需求,提供高端数据仓库解决方案,达梦数据库7.0版本(DM7)提供了大规模并行处理MPP架构,以极低的成本代价,为客户提供业界领先的计算性能。DM7采用完全对等无共享(share-nothing)的MPP架构,支持SQL并行处理,可自动化分区数据和并行查询,无I/O冲突。
MPP架构凸显六大特色
MPP系统工作起来就像是一台单独的计算机,由于采用自动化的并行处理,执行速度比传统的单节点数据库大大提高。采用了MPP架构的DM7具有以下6大特色:
1.大规模并行处理。DM7的MPP架构最多可以同时部署1024个节点,采用统一的并行操作数据库引擎,由于数据分散在不同的数据库节点上,在高速的内部网络环境下,对于海量数据的并发查询可极大地减少I/O,提高查询效率。
2.核心的MPP架构。DM7的MPP架构提供数据存储和查询的自动化并行,插入的数据会被自动分区保存到相应的节点,查询时在各节点的数据库引擎上并行执行查询,并将所有结果数据自动汇集到主查询节点上,数据无共享、无I/O冲突。
3.可靠的数据保护机制。DM7提供了数据守护系统,满足用户对数据可靠性、安全性的需求,解决由于硬件故障、自然灾害等原因导致的数据库服务长时间中断问题,提高系统的可用性。MPP系统中的每个节点都可配置数据守护系统,增加节点数据的完整冗余镜像。节点和镜像节点之间可以互相转换成MPP中的工作节点。
4.持列存储。在数据仓库(OLAP)、数据挖掘等查询密集型应用中可使用列存储表,在查询只需要少数几个字段的时候,能大大减少I/O,同时列存储也利于使用设计更好的压缩/解压算法,进一步减少存储空间。
5.功能齐全。DM7的MPP系统和单节点数据库相比,几乎没有任何功能上的限制,支持各种约束,支持触发器,支持存储过程、系统函数、复杂查询等。由于功能齐全,配置也不繁琐,从用户的体验来看,整个系统显得更加透明、简单、易用。
6.高速数据加载。数据加载可完全并行,所有节点可同时读取数据,然后根据散列算法,将属于自己的数据留下,将其他节点的数据通过网络直接传送给目标节点,实现高速数据加载。
先进框架突破成本、功能局限
DM7的MPP架构通过分布负载到多个数据库服务器主机,实现存储和处理大规模的数据,采用的是完全对等的无共享架构,每个数据库服务器称为一个EP,每个EP都是一个独立的达梦数据库。
完全对等的无共享架构中各个EP节点的功能完全一样,用户可连接MPP系统内的任意EP节点进行数据操作。这种架构的先进性在于不需要任何主控制节点进行节点间的协调,因为随着MPP系统规模的扩大,主控制节点往往会成为系统的一个瓶颈,导致大规模并行处理的能力大打折扣。随着系统的不断扩展,完全对等的无共享架构优势更加明显。
客户端可连接任意一个EP站点进行操作,所有EP对客户来说都是对等的。互为镜像的节点是配置了守护进程的主备机,在主机发生故障时守护进程会自动将镜像备机切换为主机,继续提供对外服务,大大提高了系统的可用性和可靠性。
MPP系统内每个站点只负责自身部分数据的读写,执行计划是完全并行执行,完全无I/O冲突,充分利用硬件资源,只是额外增加了数据在节点间移动的通信时间。在高速局域网内,通信时间大大缩短,更能体现大规模并行处理的优势,随着系统规模的扩大,并行支路越多,优势越明显。
目前的数据仓库解决方案通常是借助通用数据库或基于硬件的专用平台而创建,这两种方案难以从根本上解决当今社会爆发式增长的数据所面临的挑战。
通用数据库主要针对OLTP处理功能而设计,在运行大量小规模交易查询数据时效果最好。从结构上来说,采用了完全共享或磁盘共享架构。完全共享体系局限于单节点服务器,通常价格比较昂贵,其扩展性和性能受到相应的限制。磁盘共享体系允许系统带有多个服务器实例,这些实例与SAN或其它共享存储设备相连。这种体系需要通过一个狭窄的数据管道将所有I/O信息过滤到昂贵的共享磁盘子系统。
与此相比,基于硬件的数据仓库平台也采用完全无共享体系。在这种体系下,通信功能部署在一个高宽带网络互连体系上,用户通过一个主控制节点执行并行查询。该体系的一个重要优势就是每个节点都有一个通往本地磁盘的独立高速通道,不但简化了体系,还提供良好的扩展性。但这些平台所面临的困难是需要价格昂贵的专用硬件,显著增加了系统成本。
达梦MPP的完全对等无共享体系架构结合了完全无共享体系的优点,在此基础上又前进了一步,通过软件提升处理能力,它不需要价格昂贵的专用硬件,也不采用增加主控制节点来协调所有并行处理的主从式方法,而是各个节点完全对等,更进一步简化了体系的实现,也消除了系统可能存在的主节点瓶颈问题。
MPP架构凸显六大特色
MPP系统工作起来就像是一台单独的计算机,由于采用自动化的并行处理,执行速度比传统的单节点数据库大大提高。采用了MPP架构的DM7具有以下6大特色:
1.大规模并行处理。DM7的MPP架构最多可以同时部署1024个节点,采用统一的并行操作数据库引擎,由于数据分散在不同的数据库节点上,在高速的内部网络环境下,对于海量数据的并发查询可极大地减少I/O,提高查询效率。
2.核心的MPP架构。DM7的MPP架构提供数据存储和查询的自动化并行,插入的数据会被自动分区保存到相应的节点,查询时在各节点的数据库引擎上并行执行查询,并将所有结果数据自动汇集到主查询节点上,数据无共享、无I/O冲突。
3.可靠的数据保护机制。DM7提供了数据守护系统,满足用户对数据可靠性、安全性的需求,解决由于硬件故障、自然灾害等原因导致的数据库服务长时间中断问题,提高系统的可用性。MPP系统中的每个节点都可配置数据守护系统,增加节点数据的完整冗余镜像。节点和镜像节点之间可以互相转换成MPP中的工作节点。
4.持列存储。在数据仓库(OLAP)、数据挖掘等查询密集型应用中可使用列存储表,在查询只需要少数几个字段的时候,能大大减少I/O,同时列存储也利于使用设计更好的压缩/解压算法,进一步减少存储空间。
5.功能齐全。DM7的MPP系统和单节点数据库相比,几乎没有任何功能上的限制,支持各种约束,支持触发器,支持存储过程、系统函数、复杂查询等。由于功能齐全,配置也不繁琐,从用户的体验来看,整个系统显得更加透明、简单、易用。
6.高速数据加载。数据加载可完全并行,所有节点可同时读取数据,然后根据散列算法,将属于自己的数据留下,将其他节点的数据通过网络直接传送给目标节点,实现高速数据加载。
先进框架突破成本、功能局限
DM7的MPP架构通过分布负载到多个数据库服务器主机,实现存储和处理大规模的数据,采用的是完全对等的无共享架构,每个数据库服务器称为一个EP,每个EP都是一个独立的达梦数据库。
完全对等的无共享架构中各个EP节点的功能完全一样,用户可连接MPP系统内的任意EP节点进行数据操作。这种架构的先进性在于不需要任何主控制节点进行节点间的协调,因为随着MPP系统规模的扩大,主控制节点往往会成为系统的一个瓶颈,导致大规模并行处理的能力大打折扣。随着系统的不断扩展,完全对等的无共享架构优势更加明显。
客户端可连接任意一个EP站点进行操作,所有EP对客户来说都是对等的。互为镜像的节点是配置了守护进程的主备机,在主机发生故障时守护进程会自动将镜像备机切换为主机,继续提供对外服务,大大提高了系统的可用性和可靠性。
MPP系统内每个站点只负责自身部分数据的读写,执行计划是完全并行执行,完全无I/O冲突,充分利用硬件资源,只是额外增加了数据在节点间移动的通信时间。在高速局域网内,通信时间大大缩短,更能体现大规模并行处理的优势,随着系统规模的扩大,并行支路越多,优势越明显。
目前的数据仓库解决方案通常是借助通用数据库或基于硬件的专用平台而创建,这两种方案难以从根本上解决当今社会爆发式增长的数据所面临的挑战。
通用数据库主要针对OLTP处理功能而设计,在运行大量小规模交易查询数据时效果最好。从结构上来说,采用了完全共享或磁盘共享架构。完全共享体系局限于单节点服务器,通常价格比较昂贵,其扩展性和性能受到相应的限制。磁盘共享体系允许系统带有多个服务器实例,这些实例与SAN或其它共享存储设备相连。这种体系需要通过一个狭窄的数据管道将所有I/O信息过滤到昂贵的共享磁盘子系统。
与此相比,基于硬件的数据仓库平台也采用完全无共享体系。在这种体系下,通信功能部署在一个高宽带网络互连体系上,用户通过一个主控制节点执行并行查询。该体系的一个重要优势就是每个节点都有一个通往本地磁盘的独立高速通道,不但简化了体系,还提供良好的扩展性。但这些平台所面临的困难是需要价格昂贵的专用硬件,显著增加了系统成本。
达梦MPP的完全对等无共享体系架构结合了完全无共享体系的优点,在此基础上又前进了一步,通过软件提升处理能力,它不需要价格昂贵的专用硬件,也不采用增加主控制节点来协调所有并行处理的主从式方法,而是各个节点完全对等,更进一步简化了体系的实现,也消除了系统可能存在的主节点瓶颈问题。