联机分析处理中缩减用户探查空间的方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:swan159357
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
联机分析处理(Online hnalytical Processing,OLAP)在企业数据分析应用中起到了关键作用。然而,随着企业数据分析的不断深入,OLAP分析工具的一些不足也逐渐凸显,OLAP技术的智能化是解决问题的关键。 在当前的技术条件下用户使用OLAP分析工具进行数据分析时,必须采用手动探查的方式执行大量的分析操作。由于面向分析数据的数据量通常十分庞大,而且经常包含几十、甚至上百个维度,因此这种手动探查的方式使得OLAP分析工具的有效性受到了严重的限制。智能化理论的核心方法是降低问题的搜索空间,在OLAP环境下我们将问题的搜索空间定义为用户的探查空间。因此,有效地缩减OLAP用户的探查空间是改善当前OLAP工具现状的一个关键问题,也是OLAP智能化的关键技术。这个问题已经得到了国内外相关研究人员的高度重视。 经过调查研究,本文围绕缩减OLAP分析中用户探查空间问题展开研究。主要研究内容和创新成果如下: 1.本文研究了OLAP分析中探查空间大小的度量问题,提出了一种定量度量OLAP分析中用户探查空间大小的方法。OLAP分析中用户探查空间大小的形式化描述不仅可以定量描述当前OLAP用户的工作负担,也可以定量评估那些现存方法和本文所述方法的缩减效果。 2.本文研究了OLAP分析中的用户分析兴趣问题,并基于用户的长期分析兴趣提出了虚拟立方体机制。 传统的OLAP分析未能充分考虑用户的兴趣。本文提出了一种利用用户长期兴趣缩减探查空间的方法,称作虚拟立方体机制。该方法采用贝叶斯估计模型从用户的访问历史中提取分析兴趣,得到用户兴趣后重新构建新方体用于数据分析,并根据用户的分析行为维护用户兴趣。虚拟立方体中包含用户感兴趣的全部数据,而他所不感兴趣的数据将以更汇总的形式隐藏。虚拟立方体使得用户可以只分析他所感兴趣的数据,而不会被其它无用信息干扰。这样在数据分析过程中,用户所需执行的OLAP操作大大减少,有利于用户更直接有效地发现数据中的潜在规律,从而达到了缩减探查空间的目的。 3.在数据立方体中引入了“逻辑视图”的概念。 OLAP系统中的“筛选”操作在一定程度上达到了缩减探查空间的效果。然而,“筛选”操作的功能十分有限,既无法提供筛选集上的封闭操作,也无法解决用户分析过程中动态产生的即席兴趣。针对这个问题,本文在数据立方体中引入了“逻辑视图”的概念。逻辑视图是原始数据事实表的一个子集,该子集描述了用户的分析范围所在。本文将与逻辑视图对应的数据立方体称为“逻辑方体”,并用该逻辑方体回答用户的分析查询。该方法允许用户提出即席兴趣,以微小的代价动态创建对应的逻辑方体。逻辑方体提供了封闭的OLAP操作,使得用户在接下来的分析过程中仅需考虑那些动态定义的感兴趣数据。 4.本文研究了OLAP分析过程中分析操作的有效性问题,并提出了一种用于裁减OLAP中冗余下钻操作的方法。 在OLAP分析中,过多的可选下钻路径导致了OLAP分析过程的复杂性。实际上,有大量的下钻操作是不能提供有效知识的。本文采用向量夹角法评估下钻操作的有效性,并在OLAP分析过程中裁减那些不能提供知识的下钻路径。 5.本文在数据挖掘结果与OLAP分析过程相结合方面作出了有效尝试,并以聚类挖掘为例,提出了在OLAP分析中保持聚类挖掘结果的方法。 传统的数据挖掘与OLAP的结合方法只把数据挖掘作为独立的分析任务实现,未能将数据挖掘的结果进一步作为OLAP分析的依据和基础。这导致了基于数据立方体的知识发现仅能以任务驱动的方式进行,从而不能将数据挖掘任务与OLAP分析过程紧密结合。本文以聚类挖掘为例,通过划分维成员等价类的方法实现数据挖掘结果与OLAP分析过程的紧密结合。 以上研究成果的相关论文已被国内外重要期刊或学术会议接收发表,有关原型系统已在国家自然科学基金课题(60473072)的原型系统中部分实现,并在物流和税务领域的实际项目中得到应用,取得了良好效果。
其他文献
光纤通信是二十世纪七十年代问世的新型通信技术,它与卫星通信、移动通信并列为二十世纪末的三大通信技术。随着社会信息化的飞速发展,人们对通信的需求与日俱增,光纤通信技术得
当前,移动数字电视正以其独特的魅力,展示出诱人的市场前景,引起人们的注视。但由于视频图像数据量巨大,其传输所需的带宽和前端节目存储所需的容量都成为推广应用移动数字电视的
混沌现象是非线性系统中出现的确定性、类随机的过程。它是非周期的、有界的、但不收敛的过程,并对初始条件极为敏感。根据混沌序列对初始条件的敏感性,可用于多址通信;它的类噪
机载雷达处于下视工作时,会面临严重的地杂波干扰,由于载机的飞行运动,处于不同方位的杂波相对于载机的运动速度也是不同的,从而使得杂波谱被大大展宽,杂波呈现空时二维耦合特性。
近年来,随着计算机技术的不断发展,网络规模的不断扩大,系统遭受的入侵和攻击越来越多,如何及时发现入侵并及时做出响应成为了一个研究的热点问题。 本论文在深入研究开源的网
近年来,生物识别技术作为身份识别的手段越来越受到人们的重视。生物识别技术是指基于已知的生物特征图像库,利用图像处理和模式识别技术,从场景中识别和验证身份,是一种以生物技
堆肥化这是一个非常复杂的生物化学反应过程,包括微生物的降解作用,大量有机酸和腐殖酸的溶解作用和活化作用,最终将复杂有机大分子降解生成小分子物质的过程。我国磷矿钾矿
随着多媒体技术与网络技术的飞速发展,图像通信已逐步进入人们的生活,由于图像信息量极大,直接对原始图像进行存储、传输都较为困难,因此,图像处理的关键技术是对图像的压缩
超宽带穿墙探测雷达(UWB-TWSR:Ultra Wideband Through-Wall Surveillance Radar)是一种可以对建筑物内的可疑目标(人)进行外部非入侵式探测的新型雷达,它能够对建筑物内的运
多输入多输出(MIMO)在未来的第五代通信系统(5G)中将依然成为一项关键的基础技术,它通过在发送与接收端配置多根天线,能够实现高频谱效率和能量效率。为了实现MIMO技术的潜在优势,在