数据挖掘在Internet有害信息过滤中的应用

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:kyd1472
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,我国互联网发展迅速,对于促进经济发展和社会进步、提高全民族科学文化素质、加强社会主义精神文明建设,起到了重要作用。但与此同时,互联网信息内容的安全管理工作也面临着一些新的情况和问题,境内外敌对势力和一些不法分子,利用互联网进行各种违法犯罪活动问题突出,各种反动、淫秽、迷信、暴力等有害信息在互联网上的传播,严重地危害了国家安全和社会稳定,影响了社会主义精神文明建设,对青少年的身心健康造成极大伤害,广大人民群众和社会各界反应强烈。 据中国互联网信息中心(CNNIC)发布的“第十六次互联网发展状况统计报告”显示,截止2005年6月30日,我国上网用户总人数已经达到10300万人,网站总数达到677500个。面对如此众多的网站,传统的通过人工浏览来进行内容核查的方式,不仅需要大量的人力和财力,也难以在有限的时间内发现网络上出现的特定内容。因此有必要研制一种计算机软件来帮助人们自动搜集网络信息、分析信息的内容,从而为人工甄别提供便捷有效的技术手段。 本文对网络信息挖掘、文本挖掘、搜索引擎的工作机理以及WebBrowser、Mshtml组件进行了深入研究,在此基础上,设讣并实现了一整套互联网有害信息搜索采集系统(ASystemforSearchingandCollectingHarmfulMessagesintheInternet),所做的主要工作包括: 1、对数据挖掘、网络信息挖掘、文本挖掘技术进行了分析,提出了如何在BBS、聊天室等交互式栏目中进行特征提取,关键词搜索的方法。 2、分析了网页的结构和BBS的构成,通过设置网页的搜索策略和采用深度优先搜索算法,完成了对网站和BBS的整站搜索。 3、分析了IE的体系结构和WebBrowser、Mshtml组件的基本功能,对聊天室页面结构进行HTML元素分析,实现了聊天室的自动登陆和对聊天信息的动态监控。 4、探讨了网络搜索引擎的工作原理和检索模型,通过分析Google、Baidu等搜索引擎的输出结果特征,获得了搜索引擎搜索数据的通用代码。
其他文献
在移动商务领域,有许许多多的服务商,其中作用相对重要的包括:移动运营商、内容提供商和虚拟运营商。经营企业、开展商务活动的首要目的就是盈利,而商业模式这个概念正是解释
股权激励作为一种新型的管理层分配制度和激励模式,拉近了委托人和代理人的目标,能够较好的解决委托代理关系。虽然现有国家、地方政府和企业的股权激励政策日趋完善,但在实际运
随着知识经济的到来,高新技术产业竞争力水平的高低日益成为影响一个国家或地区综合竞争力的主导因素,对其进行的评价和理论研究也日益成为国内外学者研究的焦点。本文的研究目
随着互联网、移动互联网技术的飞速发展,各类贸易服务逐步电子化,许多品牌供应商开始拓展网络直销渠道服务,以补充传统零售方式所具有的缺陷,双渠道模式已被不少快速时尚产品分销企业青睐。C时尚品牌供应商当下便面临着这样一个销售转型问题,从传统零售模式向网络直销与加盟店销售混合分销的双渠道模式转变。通过分析C时尚品牌分销渠道发现,企业在引入网络直销渠道以后,怎样确定产品价格,是采用网络销售价格等于加盟店销售
自1984年鲁布革水电站引水工程建设中首次引进世界银行贷款项目的建设监理模式至今,水利工程建设监理制度在我国已有30余年的实践历程。水利工程建设监理制度不断成熟与发展的
随着知识经济时代的到来,传统的组织面临着生存和发展危机。管理理论界提出了新的理论,即学习型组织理论。 本文以学习型组织为理论基础,对我国大型企业学习型组织创建效果评
The inability of Fenneropenaeus chinensis to tolerate low temperatures is of major economic concern in temperate climates,as it reduces their growing season and
由IMT-2020(5G)推进组主办的2017年IMT-2020(5G)峰会日前在北京举行。工业和信息化部副部长陈肇雄出席会议并致辞。陈肇雄指出,我国与国际同步启动5G研发,在各有关部门、产业
近年来,我国建筑产业方兴未艾,市场中的竞争也不断加剧,人们渐渐地开始关注如何在预定的工期目标内高质量的完成工程项目,降低工程成本,提高工程效益。其中水利项目的施工,由于工程
我国物流标准化目前还处于起步阶段,标准化体系也正在建设当中。由于物流标准化的整体水平较低,已无法满足现代物流的发展要求。我们必须尽快从物流标准化着手,从根本上理顺物流