论文部分内容阅读
提出了一个基于ANSI编码的中文无损压缩算法性能评估测试集HitIct。按照应用代表性、对现有ASCII编码测试集的补充性、样本公开性的原则从互联网上获取候选样本集,采用平均压缩率、标准差、平均相关系数、压缩率相关系数等技术指标对样本集中的样本进行筛选,并剔除影响压缩率的非文本因素等方法确定的最佳样本组成HitIct Corpus。实验结果表明,该测试集具有良好的代表性及稳定性,可以作为当前主流ASCII编码测试集的补充。