EC环境下高性能数据仓库平台的设计

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:tanli357
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着网络技术的发展,电子商务作为一种全新的商务模式,已经深入到我们的工作、生活当中,因而构建支持电子商务的高性能数据仓库平台显得非常重要。该文以此为出发点,讨论了电子商务环境下数据仓库平台的设计和实现,包括需求分析,逻辑设计和物理设计等。
  关键词:电子商务;数据仓库;粒度
  中图分类号:TP311文献标识码:A文章编号:1009-3044(2009)36-10554-02
  The Design of Data Warehouse Platform for EC Environment
  GE Fu-hong, ZHANG Li-ping, LI Wei-min
  (College of Education Science and Technology, Shanxi Datong University, Datong 037009, China)
  Abstract: With the development of internet technology, e-commerce has become a new model for business and popular with us. So designing data warehouse platform for EC environment is very important. In this paper, we discuss the design of data warehouse platform for e-commerce environment, including requirement analysis, logical design and physical design.
  Key words: e-commerce; data warehouse; granulation
  电子商务EC( Electronic Commerce)是一种通过网络技术的应用,快速而有效地进行各种商业行为新技术,不仅指基于Internet 网上的交易,而且指所有利用Internet、Intranet和局域网来解决问题、降低成本、增加价值并创造新的商机的所有商务活动。
  电子商务作为一种全新的商务模式已深入到人们的工作、生活当中。 电子商务将信息技术和网络技术与企业的商务活动紧紧地融合在一起,互相渗透、互相促进、实现了企业效益的快速增长。
  数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。数据仓库的根本任务是把数据加以整理归纳,并及时提供给相应的管理决策人员,供他们做出改善其业务经营的决策,使信息发挥作用,支持决策。数据仓库在电子商务中有着非常广泛的用途,如:客户追踪、控制商品库存、减少跳线率、一对一服务、决策信息服务等。
  因此,构建一个基于电子商务的数据仓库决策支持系统,可以极大地提高电子商务企业的商业智能,从而占有更大的市场,提高市场竞争力。本文着重对支持电子商务的高性能数据仓库平台的设计进行探讨。
  1 电子商务数据仓库平台的设计
  1.1 数据仓库的平台的构成
  数据仓库平台是由硬件和软件两部分组成的。硬件平台是大量数据存储和处理的基础;软件平台则用一个高效的且优化的方式来组织和管理数据。一个高性能平台是任何一种高性能数据仓库环境的核心。就是这种平台决定了数据仓库环境的处理能力和I/O速度,可以支持的用户数,以及可以存储的数据量。一个高性能平台是由大量组件构成并在一条链中将这些组件有机组织起来。由于数据仓库环境必须能够随着用户需求的增长而增长,要能够适应用户需求的变化,所以性能链中的每个组件必须能够支持快速增长和快速变化这种特性,保证数据仓库平台的可持续发展。
  1.2 数据仓库的平台开发模型
  数据仓库设计的主要目标是确定一个模型使之能对决策支持处理进行优化,这个模型对商务分析人员必须清楚易懂,而且能够支持高速速查询。数据仓库中的数据必须精确、一致、干净。多维模型恰好能够满足了这些要求,可以采用星型模型来实现数据仓库系统,那么工作的重心集中在事实表和维表的建立上,而两者的建立主要是基于收集各种可能的OLAP(联机分析处理)分析。图1显示了构建数据仓库多维模型的过程。
  数据仓库平台的开发过程比较复杂,因为数据仓库中的数据是面向主题,因此其开发过程是一个数据驱动的过程,包括软硬件配置、体系结构的设计、技术的选择、开发环境等。本文侧重介绍数据仓库体系结构的设计,但也需要考虑到硬件对整个数据仓库平台性能的影响,如各种服务器的选取、数据仓库数据库服务器、OLAP查询服务器、Web服务器。整个平台使用Java为前端开发工具,微软SQL Server 2000 为目标数据库。
  1.3 电子商务数据仓库平台开发过程
  1) 需求分析。在实现系统之前,第一步是需求分析,它是数据仓库设计中非常重要的一部分,尤其是电子商务环境下,因为要捕获许多电子商务特有的数据,例如:①各种网页数据到Web数据库的转变;②元数据的处理;③支持数据库级的用户接口(如存储设计等);④模型的变化(如新产品,已售商品等);⑤在上下文环境下捕获click stream 数据。
  2) 逻辑设计阶段。这一阶段主要完成数据仓库逻辑模型和数据仓库体系结构的设计。通过使用多个电子商务站点来寻求具体经验,同时模拟了许多商业场景来得出各种各样的OLAP查询,然后在这些查询的基础上进行分类,得出所需要的主题域,既要确定事实表的粒度和必要的维,又要确定维的属性。设计时采用星型多维模型,这种数据模型直观且简化了数据结构,有助于提高查询的性能。数据仓库中的每一个主题对应于一个星型模型结构,由事实表和若干维表组成,并按不同的粒度来存储数据。在完成数据模型的构建之后,设计如图2所示的数据仓库体系结构。这是一个3 层体系结构: 最底层是数据仓库服务器,这是一个关系数据库系统,把数据集市和元数据库也放在这一层;中间层为OLAP 服务器,它是一种特殊的服务器,可以直接实现多维数据和操作; 最顶层主要是应用服务器,主要是商业智能应用程序,包括查询和报告工具,OLAP分析和数据挖掘,以及各种报表生成工具。
  在上面所提出的体系结构中,整个数据仓库平台由以下几个模块组成:①数据抽取、转换和加载模块。其功能是从各种数据源抽取所需的数据,并通过清理和转换变成统一的数据格式,加载到数据仓库数据库中。这里数据源的选取和数据质量是非常重要的,数据源主要包括ERP/CRM 数据、OLAP数据、历史数据、外部数据(如人口统计数据和心理学数据)、click stream 数据等。②元数据管理模块。元数据是数据仓库中最重要的一部分,只要是支持和管理数据仓库的任何所需信息,都要写到元数据库中,元数据管理是控制企业数据仓库、Web 驱动的应用程序的关键部分。系统实现了基于Web的数据仓库访问,用户可以通过Meta data Browser 来访问和管理元数据。③数据访问模块。这个模块主要完成数据前端展现和各种OLAP 查询、分析、数据挖掘以及各种报表的生成。④数据仓库管理和维护模块。这个模块主要完成对数据仓库的日常维护和管理,涉及数据仓库的更新、备份,ETL规则的更新,平台性能的优化以及数据仓库的安全性等。
  3) 物理设计阶段。完成数据模型的设计后,就进入物理阶段设计,主要包括数据仓库物理模型的实现和硬件平台的配置。这里重点考虑存储策略和索引技术,所有表的存放都要充分利用并行处理技术和多线程技术,这样来提高数据仓库性能。在数据仓库环境下,主要使用位图索引和联合索引。为加快今后查询的速度,同时还建立了很多汇总表和视图。
  2 电子商务数据仓库平台设计中的若干关键问题
  2.1 数据源的选取
  电子商务的数据仓库数据来源很多,数据格式复杂,例如click stream 数据、IP 地址等。如何捕获这些数据就成为数据仓库设计中非常困难的一点,例如如何追踪hyperlink 链接。在数据源的选取过程中,要确保数据仓库中的数据是有效性和精确性。
  2.2 物理数据库及数据模型的设计
  数据模型的建立在数据仓库数据库构建中很重要,为了提高数据仓库的性能,可采用非结构化的数据库,它通过最佳优化同一个物理块中的数据存放位置、减少频繁的表的连接。同时采用星型模型来保存数据,图3是设计的销售数据仓库事实表的一个简化的星型模型。
  Item_Key
  Item_Name
  Brand
  Type
  Time_Key
  Month
  Quarter
  Year
  Time_Key
  Item_Key
  Location_Key
  Location Key
  City
  Province
  Country
  2.3 数据的描述和存储策略
  使用XML来描述数据,可以很方便地在各种各样的系统中对这些数据进行互操作,而不必担心诸如平台、操作系统、语言、或是数据存储等各方面的不同,这样系统有灵活的扩展性和可移植性。数据的存储策略及其访问是另一个需重点考虑的问题,为了对数据进行高效地访问和更新,对数据存放位置在物理的块、页一级上进行特殊的控制,并利用I/O并行性对数据并行存储和管理。
  2.4 数据仓库的Web 访问
  所设计的数据仓库是基于电子商务的,为了使用户更多地了解企业,同时企业获得更大的利益和提高效率,系统允许通过浏览器对数据仓库访问。
  2.5 可扩展性的硬件体系
  建立了数据仓库体系结构后,就需要用可扩展硬件来配置数据仓库平台,而且随着数据仓库的增长,要扩增硬件配置来满足新的处理需求。
  除此之外,设计时还应该考虑查询的反应时间、报告的反应时间、数据抽取转换和加载的时间、数据仓库更新和刷新频率及其对机器资源的消耗等。
  3 结束语
  企业通过构建一个基于数据仓库的电子商务平台,可以提高商业智能,也就提高了企业的竞争力。数据仓库系统平台的构建是一个动态的反馈和循环的过程,是不断循环、螺旋式上升的,要根据用户所返回的信息不断地调整和完善,提高系统地效率和性能,这就要求数据仓库结构必须能够支持不断的更新和可扩展性需求。
  参考文献:
  [1] Inmon B.Data Warehouse Performance[M].New York:JohnWiley&Sons Inc,1999(1):121-125.
  [2] 陈文平,夏红霞.事务数据向数据仓库转移的方法[J].武汉理工大学学报,2002,24:18-20.
  [3] 郝春吉.统计行业数据仓库构建及应用[J].微计算机信息,2006,5(3):21-24.
  [4] 夏红霞,赵杨,钟珞.数据仓库中的索引技术[J].微机发展,2000,6(10):31-32.
  [5] 钟珞,马志军.支持电子商务的数据仓库平台[J].武汉理工大学学报,2003,25:16-18.
其他文献
本文简要阐述了DDN、路由器的基本原理,然后举出实例,并详细的解释了DDN接入教育网时路由器上的配置。
(广东省佛山市南海区信息技术学校,广东 佛山 528225)  摘 要:任务驱动教学法提倡以学生为主体,以动手操作为途径。文章从确定好任务,课前分析任务,采用自主协作模式完成任务,反馈纠錯、问题点拨,归纳总结、调整任务等方面,研究动画设计课程中应用任务驱动教学法的策略。  关键词:动画设计;任务驱动教学法;计算机教学;建构主义  中图分类号:G712;G718 文献标志码:A 文章编号:1008-
目的探讨CTA在动脉瘤性蛛网膜下腔出血中的诊断价值。方法回顾性分析46例蛛网膜下腔出血患者CTA检查影像表现。结果动脉瘤阳性患者40例,动脉瘤47个,统计其发生部位、大小、形
采用实验生态学方法,研究了温度(T=16、19、22、25、28℃)、盐度(S=5、10、15、20、25)对西藏拟溞总超氧化物歧化酶(TSOD)、谷胱甘肽过氧化物酶(GSH-PX)活力以及脂质过氧化产
随着计算机网络的迅速发展,Web服务已越来越广泛地应用于社会生产生活的各个方面。为了保证Web服务的正确性和可靠性,Web服务软件测试逐渐引起了各方面的广泛关注,而其性能测
具有散文美的语文课堂是美的,也是科学性与艺术性和谐的课堂。这不仅要求我们每节课有明确的教学目标,有丰富的教学内容,有准确优美的语言表达,变换不同的教学手段和方法,更
嵌入式Web Server(Embedded Web Server,EWS)技术是网络技术、Web技术和嵌入式技术相结合的产物。EWS系统与传统的Web应用系统相比,大大简化了系统的结构,并将信息采集和信息
摘要:基于编译理论与虚拟机技术,经过词法分析、语法分析、语义分析等过程,设计一个简单的编译器,将某一种源程序编译成目标程序,以验证结果的正确性。  关键词:编译器;词法分析;语法分析;语义分析  中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)33-1508-03  The Design of a Simple Compiler  CHENG Hua  (Jiangsu
目的观察丁苯酞软胶囊(NBP)治疗急性脑梗死的临床疗效和对血清神经元特异性烯醇化酶(NSE)、S-100B蛋白的影响。方法将收治的80例急性脑梗死病人随机分为对照组和治疗组,各40例。对