大型数据表语义压缩方法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:y317145569
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,人们面对着与日俱增的庞大信息,对其存储和处理均有一定的困难。故对数据采用压缩技术,实现数据约简,具有重大的研究价值和实践意义。从信息冗余类型角度考虑,数据压缩技术分为语法压缩和语义压缩。语法压缩基于数据统计,减少数据冗余;语义压缩基于语义,减少内容冗余。从压缩的角度考虑,数据分为数值型数据与非数值型数据。在很多实际应用场合,都会产生大型数据表,可用二维表结构来逻辑表达的数据,也称结构化的数值性数据。语法压缩被建议用于处理非数值型数据,如文字,图像,音视频等,而如果用于处理大型数据表,不能提供较理想的解决方案。现在人们研究如何将语义压缩用于大型数据表。语义压缩是指发掘数据中语义模型,揭示数据中蕴含的含义,潜在的关联,并运用到数据压缩过程中。语义压缩一般属于有损压缩,即允许一定的误差存在。在关于大型数据表的语义压缩方法的研究中,现有的一些语义压缩方法,如Fascicles、ItCompress、SPARTAN等,在灵活性和压缩性能方面存在一定的缺陷性。本文根据实际数据特性,提出一种双向语义压缩框架(Bidirectional Semantic Compression, BSC),以及由此衍生的三种压缩算法,并进行了实验验证。BSC结合了列方式压缩和行方式压缩,综合分析了各种数据特性,如相关关系、时序性等,采用不同的压缩策略。如数据属性线性相关关系明显,选用主成分分析—聚类分析压缩算法;如线性相关关系不明显,而数据又不存在时序性,选用预测模型分析—聚类分析压缩算法;如线性相关不明显,而数据具有时序性,选用预测模型分析—时序分析算法。由BSC框架中衍生出的三种压缩算法,实验证明了算法的适用性较好,压缩效率要优于其它语义压缩算法。采用以上提到的相应的压缩算法,在给定允许误差范围内,对原数据表进行重新组织,制定压缩计划。压缩计划采用了XML语言的形式。
其他文献
一般的电子资料搜索模式为:为查找某一资料,用户可能需要到不同站点(比如各个图书馆,出版商),不同搜索引擎上搜索与某一资料相关的所有资料,而各个站点提供给用户的服务可能是不一
存储技术与计算技术及网络技术之间的不平衡发展,使计算机系统中的存储环节日益显得薄弱,存储“瓶颈”日渐突出。尽管通过提高存储系统总线带宽、优化存储请求调度策略和增加数
项目调度问题广泛存在于建筑、工业生产、软件开发、云计算等不同行业,有效调度是提高项目效率、降低代价的重要手段。  本文考虑带资源可用性代价和截止期约束,最小化资源可
语义Web是当前Web的扩展,它为Web信息附加计算机可理解的语义,实现Web数据处理的智能化。描述逻辑被视为语义Web的主要逻辑基础,它赋予Web信息以形式化的语义。随着语义Web的发
“能够随时随地利用计算机解决各种问题”,一直是人们长久以来的愿望。移动计算技术和开放系统技术的提出和发展使得这一愿望逐步得以实现。随着计算机技术向“便携化、普适化
学位
随着市场竞争的日益加剧,为了缩短产品开发周期、降低开发费用,产品设计正由传统的串行式过程向并行、协同的过程发展。分布式协同设计(DCD)是20世纪90年代发展起来的产品设
随着W曲数据的快速增长,人们希望快速而准确的找到自己感兴趣的信息,同时网站也希望针对不同用户的兴趣推荐不同信息,从而提高用户的使用体验,这些促使了个性化推荐系统的产生。
网格计算是伴随着互联网技术而迅速发展和逐渐成熟起来的,这给数据网格提供了基本的框架体系。但通用的网格技术又远远不能满足数据网格的需求,因为大量数据需要及时查询与处理
本文主要设计基于软件实现N模冗余(NMR)计算机系统的表决器结构,软件冗余对于高性能、关键计算机系统来说是一种具有成本效益的方案。由于选择数据的大数量和随机性,软件冗余
从生物序列中发现基序是生物信息学中一个的热点研究问题,也是生物学中理解基因调控的最重要的基础计算问题之一。随着生物技术的迅速发展,人们不断地对最初的基序发现问题的计