论文部分内容阅读
数据压缩技术对于海量遥感数据远距离传输具有重要意义。遥感卫星原始数据经各个卫星数据地面接收站接收之后,需要通过网络传输到数据接收和处理中心供数据的预处理和应用处理之用。在网络带宽资源一定的前提下,这种海量数据的远程传输即要做到在尽可能短的时间内传输尽可能多的数据,又要保证数据在传输过程中信息不能有任何的丢失。数据压缩技术中的无损压缩可以满足这一需求。无损压缩保持了数据的全部信息,能在译码端完全精准地恢复出原数据。 无损压缩技术主要包括统计编码,基于字典的压缩编码,预测编码等。基于字典的压缩算法因不需提前获取信源的统计特性,并且对各种类型的数据均能取得良好的压缩效果,得到了广泛的研究与应用。 LZW算法是基于字典的压缩算法族中的典型代表。本论文选取LZW作为基础算法进行研究,发现LZW在应用中往往需要使用较大容量的字典以保存更多的数据词组信息。由于大字典将导致输出数据的范围扩大,又因LZW输出数据往往服从均等概率分布,所以大字典将导致输出数据的平均信息熵快速增大。信息论中平均码长界限定理指出,对数据进行编码的平均码长不能无限小,其最短码长由数据的信息熵界定。因此,如果LZW输出的数据的平均信息熵过大,与LZW组合使用的其他编码算法的平均码长将难以降低。因此,研究并优化LZW输出数据的统计特性对组合使用LZW算法和其他压缩算法有积极意义。现有LZW各改进算法对于输出数据的统计特性关注较少,本论文从压缩后数据的统计特性与平均信息熵方面入手,进行了以下研究工作: (1)对基于字典的压缩算法族及其代表算法LZW的编码译码流程与输出数据的统计特性进行了深入研究,阐述了LZW算法在实际应用中既需要保持大字典容量同时也受困于大字典容量带来的产出数据的平均信息熵增大的矛盾,确定了改进方向。 (2)分析大字典容量带来信息熵快速增大的原因,并观察到数据中普遍存在的空间周期性,提出了在保持大容量字典应用架构的前提下,根据相邻数据的空间相关性,提出了在整体字典中选定相关局部字典进行实际压缩的设计思路,同时设计了保存空间周期性的字典结构并实现了采用局部字典的编码与译码流程。 (3)由于LZW编码算法在在更新字典的阶段使用了译码端当时无法得知的信息,就造成编码端与译码端储存的信息不是严格同步。因此,在特殊场景中,译码端会接收到译码端字典不存在的字典项索引。 由于改进算法与LZW算法具有不同的字典更新策略,产出数据是偏置位置与绝对位置的混合数据,这使得LZW可能出现的特殊情况及其特殊处理流程不能适用于改进算法的编码与译码,也不利于进一步改进算法,因此本文设计与实现了更加自然的规则,使LZW可能出现的特殊场景在改进算法中可以和正常场景用同一流程编码。 同时,本文设计的这种规则也可以应用到LZW中,使得原本可能出现的特殊情况不复存在,因此也就不需要针对这种情况的特殊处理流程,这使得编码与译码更加简洁,更有利于算法的进一步扩展。 (4)给出了改进算法与LZW压缩算法对多幅数据的性能对比,实验结果表明改进算法输出数据的信息熵比LZW降低了2%至16.9%,证明了改进算法的有效性;对于不同类型数据均能取得降熵效果也说明了改进算法降熵作用的普遍性。