论文部分内容阅读
敏感文件是带有敏感信息如国家秘密、商业秘密等信息的重要文件,不正确的使用有时会导致敏感信息的泄露,从而造成国家财产、商业利益等的严重损失。随着信息技术的不断发展,以及需保密的文件数量增多,敏感文件的保密工作面临着更加严峻的形势。快速有效的识别出敏感文件,并及时阻止可能发生的外泄事件,是保密工作中一个重要的目标。针对这个问题,本文提出了一种从文件内容和格式多角度快速检测并识别出带有敏感信息的文件的系统设计方法。该系统使用基于Lucene的全文检索策略为从网络中截获的违规外联文件建立全文索引,为用户提供了检索界面,实现了基于关键词的全文检索功能,同时可以实现用户人工输入敏感关键词来识别敏感文件的功能;该系统也提供了自定义敏感词词典的功能,通过将待识别文件与人工设定的敏感词词典中的词语相匹配的方式准确识别出敏感文件;为了能够尽量全面的识别出敏感文件,本系统根据同义词词林对自定义的敏感词词典进行特定格式的同义词扩展,在此基础上对文件进行初步并快速的敏感文件识别。另外,由于目前Word文档与PDF文档为比较常见的文本文件存储方式,为此本系统从格式上分别针对两种存储方式的电子文档设计了不同的识别方案:针对Word文档的文本数字水印识别方案与针对PDF文档的MD5摘要验证的识别方案。这种从文件内容和格式多角度、多方案的识别方法,能够在诸多文件中快速、智能、有效的识别出敏感文件。