用于图书馆标签的敏感词过滤子系统的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:wh820228
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速普及和web2.0近年来深入人心,标签得到了大量的应用。标签所天然具有的极广泛用户参与度,使得非法信息在其中能够以极低成本爆发性的传播。图书馆对于非法信息十分敏感,通过图书馆标签系统,用户可能有意或无意的对图书馆造成损害。为此,本文进行了可用于图书馆标签的敏感词过滤子系统的研究,以避免非法信息的扩散。  为了将敏感词过滤技术应用到图书馆标签当中,本文主要进行了以下五个方面的工作:  1.采用多种方法针对敏感词的人为设置障碍特点,如:添加符号、拼音代字、同音字代替、拆字等情况,在控制误判率的同时,用尽可能简单的方法和尽可能少的工作量解决这些障碍。本文提出了基于心理学中视觉整体性的头尾识别的方法,有效应对了拼音代字和同音字代替的情况。  2.对现有敏感词筛查算法进行研究、选择、整合,使之适合用于图书馆标签的要求。对于用于图书馆标签的敏感词子系统而言,在后期再加以检测,系统设置复杂,运算与修改代价都较高,不良影响也可能已经产生。因此要求实时性检测。同时对不同的算法耗时进行了试验与比较,证明在敏感词库较大时,使用多模式匹配算法能够有效的提高效率。  3.针对图书馆标签及图书馆资源的特点,本文提出采取检验全文、检验用户其他标签、检验用户黑名单三种方式解决敏感词过滤中的误判率问题。有效的降低了敏感词的误判率。  4.利用官方资源的安全性和标签与资源相关联的特点,对部分带有敏感词的学术性文本进行区分,如分析邪教的论文与法轮功宣传。本文提出了关联资源追溯的方法,辅助敏感词过滤。  5.对组成敏感词过滤子系统所需的各功能模块进行设计与细节处理,设计出一种适合用于图书馆标签的敏感词过滤子系统,达到将敏感词过滤技术引入图书馆标签,以避免非法信息的扩散的研究目的。  6.整合相关文献中提出的性能评价方法,并对敏感词过滤子系统的性能进行检验,初步达到了预期的效果。
其他文献
谱方法是一种重要的高性能数值计算方法,有着有限元方法和有限差分法不可比拟的优势,其最大的魅力是在原方程的解无穷光滑时,该方法具有“无穷阶”的收敛速度和逼近精度。而谱元
基于内容的图像检索是多媒体领域一个非常活跃的研究方向。作为一种直观、生动的信息载体,图像数据已经深入渗透到了我们的日常生活中,成为人们沟通、交流的重要手段。目前,图像
指静脉识别技术是一种新兴的生物特征识别技术,具有良好的应用前景。指静脉识别的研究主要集中在图像采集、特征提取、匹配和应用,其中指静脉图像的采集是整个研究的基础。本
随着计算机技术、光学技术、微电子技术的发展,电子设备日益智能化、便携化和低成本化,人们的生活不断丰富和提高,二维平面的显示方式己逐渐不能满足人们的需求,三维立体显示
数据在迁移中的安全是信息安全中的一个重要课题,尤其是在安全存储领域。数据的丢失、篡改,非法人员对数据的盗取以及恶意程序的侵入等安全威胁不断向数据的安全迁移提出新的挑
随着嵌入式设备上3D应用程序开发的飞速发展,OpenGLES图形标准由于其跨平台和方便的特性,得到迅速普及。但是由于发展时间较短,基于OpenGLES图形标准的应用程序不能满足用户的需
近年来,Android应用市场迅速扩大,应用程序功能激增,越来越多有趣且多样化的功能被用户所喜爱。然而,Android手机电池续航时间短,应用程序耗能太快,逐渐成为消费者对Android手机不
伴随产品制造业的不断发展,先进的产品制造技术日益涌现,同时也呈现出许多新的挑战,其中尤为突出的难题体现在以下几点:设计团队的扩充以致地域不断分散,设计过程愈发复杂(呈
NTRU公钥密码体制(NTRU PKCS)是一种典型的快速公钥系统,其解决了困扰PKCS的速度问题,更因其密钥体积小、生成方法简单等特点,可广泛应用于电子商务、嵌入式、通信等领域。  N
统一建模语言(Unifled Modeling Language,UML)是一种通用的可视化建模语言,已经成为面向对象建模领域公认事实上的工业标准。由于UML图从系统的需求、静态结构、动态行为以及