论文部分内容阅读
随着信息时代的到来,人们面对着与日俱增的庞大信息,对其存储和处理均有一定的困难。故对数据采用压缩技术,实现数据约简,具有重大的研究价值和实践意义。从信息冗余类型角度考虑,数据压缩技术分为语法压缩和语义压缩。语法压缩基于数据统计,减少数据冗余;语义压缩基于语义,减少内容冗余。从压缩的角度考虑,数据分为数值型数据与非数值型数据。在很多实际应用场合,都会产生大型数据表,可用二维表结构来逻辑表达的数据,也称结构化的数值性数据。语法压缩被建议用于处理非数值型数据,如文字,图像,音视频等,而如果用于处理大型数据表,不能提供较理想的解决方案。现在人们研究如何将语义压缩用于大型数据表。语义压缩是指发掘数据中语义模型,揭示数据中蕴含的含义,潜在的关联,并运用到数据压缩过程中。语义压缩一般属于有损压缩,即允许一定的误差存在。在关于大型数据表的语义压缩方法的研究中,现有的一些语义压缩方法,如Fascicles、ItCompress、SPARTAN等,在灵活性和压缩性能方面存在一定的缺陷性。本文根据实际数据特性,提出一种双向语义压缩框架(Bidirectional Semantic Compression, BSC),以及由此衍生的三种压缩算法,并进行了实验验证。BSC结合了列方式压缩和行方式压缩,综合分析了各种数据特性,如相关关系、时序性等,采用不同的压缩策略。如数据属性线性相关关系明显,选用主成分分析—聚类分析压缩算法;如线性相关关系不明显,而数据又不存在时序性,选用预测模型分析—聚类分析压缩算法;如线性相关不明显,而数据具有时序性,选用预测模型分析—时序分析算法。由BSC框架中衍生出的三种压缩算法,实验证明了算法的适用性较好,压缩效率要优于其它语义压缩算法。采用以上提到的相应的压缩算法,在给定允许误差范围内,对原数据表进行重新组织,制定压缩计划。压缩计划采用了XML语言的形式。