论文部分内容阅读
随着互联网的迅速普及和web2.0近年来深入人心,标签得到了大量的应用。标签所天然具有的极广泛用户参与度,使得非法信息在其中能够以极低成本爆发性的传播。图书馆对于非法信息十分敏感,通过图书馆标签系统,用户可能有意或无意的对图书馆造成损害。为此,本文进行了可用于图书馆标签的敏感词过滤子系统的研究,以避免非法信息的扩散。 为了将敏感词过滤技术应用到图书馆标签当中,本文主要进行了以下五个方面的工作: 1.采用多种方法针对敏感词的人为设置障碍特点,如:添加符号、拼音代字、同音字代替、拆字等情况,在控制误判率的同时,用尽可能简单的方法和尽可能少的工作量解决这些障碍。本文提出了基于心理学中视觉整体性的头尾识别的方法,有效应对了拼音代字和同音字代替的情况。 2.对现有敏感词筛查算法进行研究、选择、整合,使之适合用于图书馆标签的要求。对于用于图书馆标签的敏感词子系统而言,在后期再加以检测,系统设置复杂,运算与修改代价都较高,不良影响也可能已经产生。因此要求实时性检测。同时对不同的算法耗时进行了试验与比较,证明在敏感词库较大时,使用多模式匹配算法能够有效的提高效率。 3.针对图书馆标签及图书馆资源的特点,本文提出采取检验全文、检验用户其他标签、检验用户黑名单三种方式解决敏感词过滤中的误判率问题。有效的降低了敏感词的误判率。 4.利用官方资源的安全性和标签与资源相关联的特点,对部分带有敏感词的学术性文本进行区分,如分析邪教的论文与法轮功宣传。本文提出了关联资源追溯的方法,辅助敏感词过滤。 5.对组成敏感词过滤子系统所需的各功能模块进行设计与细节处理,设计出一种适合用于图书馆标签的敏感词过滤子系统,达到将敏感词过滤技术引入图书馆标签,以避免非法信息的扩散的研究目的。 6.整合相关文献中提出的性能评价方法,并对敏感词过滤子系统的性能进行检验,初步达到了预期的效果。