论文部分内容阅读
目前,在P2P文件共享系统中,以色情和政治不良倾向为代表的敏感资源广为传播,对社会造成了很坏的影响,如何识别并过滤这些敏感资源,成为当前P2P文件共享系统所面临的一个共同技术挑战。
本文立足于Maze文件共享系统,致力于敏感资源识别问题,做了如下工作:
1.)从文本分类的角度来考查敏感资源的识别,将敏感资源的识别看作一个二元文本分类问题,从而抛弃系统原有的关键词匹配算法,第一次在Maze系统中采用经验学习算法进行敏感资源识别。
2.)采用最小风险贝叶斯分类算法进行敏感资源识别,并根据Maze特点,构造了分类器。测试数据显示,对于镜像数为10的热门资源,该算法的敏感资源查全率与查准率分别达到了95.9%与94.9%,而关键词匹配算法仅为28.6%与86.6%;对于镜像数为l的非热门资源,该算法的敏感资源查全率与查准率分别达到71.2%与82.5%,而关键词匹配算法分别为10.2%与95.5%。
3)根据Maze中资源的特点,提出了“最小风险贝叶斯与公投相结合”的改进方案。测试数据显示,对于镜像数为1的非热门资源,改进方案的敏感资源查全率与查准率分别达到了84.4%与89.2%,但改进方案在热门资源的分类效果上并没有明显的改进。