基于贝叶斯分类算法的Maze敏感资源识别系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:alex136629
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,在P2P文件共享系统中,以色情和政治不良倾向为代表的敏感资源广为传播,对社会造成了很坏的影响,如何识别并过滤这些敏感资源,成为当前P2P文件共享系统所面临的一个共同技术挑战。 本文立足于Maze文件共享系统,致力于敏感资源识别问题,做了如下工作: 1.)从文本分类的角度来考查敏感资源的识别,将敏感资源的识别看作一个二元文本分类问题,从而抛弃系统原有的关键词匹配算法,第一次在Maze系统中采用经验学习算法进行敏感资源识别。 2.)采用最小风险贝叶斯分类算法进行敏感资源识别,并根据Maze特点,构造了分类器。测试数据显示,对于镜像数为10的热门资源,该算法的敏感资源查全率与查准率分别达到了95.9%与94.9%,而关键词匹配算法仅为28.6%与86.6%;对于镜像数为l的非热门资源,该算法的敏感资源查全率与查准率分别达到71.2%与82.5%,而关键词匹配算法分别为10.2%与95.5%。 3)根据Maze中资源的特点,提出了“最小风险贝叶斯与公投相结合”的改进方案。测试数据显示,对于镜像数为1的非热门资源,改进方案的敏感资源查全率与查准率分别达到了84.4%与89.2%,但改进方案在热门资源的分类效果上并没有明显的改进。
其他文献
随着虚拟存储技术的广泛应用,现代存储系统以集中共享平台为开放环境提供服务的应用模式日趋普遍,系统上的应用具有多样性和复杂性。不同的应用类型对快照功能的需求有很大的差
随着计算机技术的日益发展和林业调查技术的变革,以及森林可持续经营的思想对森林资源信息和利用的要求,促使可视化在林业领域中的研究日渐深入。用可视化技术展示林分信息,
讲故事作为有效的教育手段,被广泛运用于儿童教育。随着计算机技术的发展,许多科研机构纷纷研究计算机支持的讲故事系统,给儿童提供新的讲故事方式。故事作为一种载体,需要丰富的
半导体技术、微系统技术、通信技术、计算机技术、自动控制和人工智能等技术的飞速发展孕育一种新型的测控网络:无线传感器网络。无线传感器网络是一种以数据为中心的自组织无
随着集成电路技术的快速发展,工艺特征尺寸不断减小,产品的性能不断提高,在单一芯片上实现全部系统功能的SoC(System on a Chip,系统级芯片)设计技术逐渐走向成熟,促进了嵌入式领
随着IP技术的发展和日趋成熟,以VoIP(Voice over Internet Protocol)为代表的NGN(Next Generation Network)通信作为一种典型的宽带应用正面临着前所未有的发展机遇。SIP(Ses
“存储墙(Memory Wall)”问题已经提出了10多年,学术界、工业界都在努力地改善CPU与Memory之间的差距。随着多核技术的发展,“存储墙”问题更严峻,内存的延迟与带宽都成为了计算
尽管生物测定学已经在许多领域中得以广泛应用,但是印鉴识别作为一种个人身份认证被广泛应用于日本等一些亚洲国家,印鉴应用于多种类型的文档。随着信息化的普及和办公自动化程
随着Internet网络技术的不断发展和应用领域的日益拓宽,许多新的服务如网上直播、远程诊疗等不断展现出来,开展这些服务离不开网络环境中的组播技术的支持。组播技术是相对于
通过引入欧氏空间的连续自映射不动点算法提出求解函数优化问题的改进遗传算法,并提出了两种分别针对单目标和多目标优化问题算法模型。这两模型都将剖分理论引入遗传算法,对