Web垃圾信息评价系统的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：z18388596

【摘要】

：

互联网的飞速发展，信息的迅速膨胀，使得互联网中的网页数量呈指数级别增长。据Google的官方博客公布的最新数据，目前世界网络中存在的网页的数量已经达到了万亿的量级。网络信息

【作者】

：

蒋前程

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2009年期

【关键词】

：

Web垃圾技术搜索引擎特征提取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网的飞速发展，信息的迅速膨胀，使得互联网中的网页数量呈指数级别增长。据Google的官方博客公布的最新数据，目前世界网络中存在的网页的数量已经达到了万亿的量级。网络信息的极大丰富对用户来说无疑具有十分重要的意义，但是信息数量的庞大和信息质量的良莠不齐也给用户在信息的选取上带来了极大的困难。搜索引擎的出现很好的解决了替用户寻找和推荐信息的问题。据CNNIC的调查显示，有64.7％的用户通过搜索引擎访问网络。而与此同时，搜索引擎返回的结果中只有排名靠前的部分网页才会被用户访问。因此，较高的排名对网页来说意味着流量和潜在的经济利益。于是，能够在搜索引擎中争取高的排名也就成了很多网页的目标。　　 Web垃圾技术(Web Spamming Technique)就是采用不正当的手段使网页在搜索引擎中获得比其自身价值高的排名的技术。Web垃圾技术的出现不仅严重影响了用户的体验，还会损害用户的利益。所以，如何预防和过滤Web垃圾信息就成了搜索引擎十分关注的问题。本文针对三种常见的Web垃圾技术，提出了对Web垃圾信息进行评价的方法。其中对于文本和链接垃圾网页，采用基于特征提取的分类方法。并且在对网页进行分类的同时给出网页所属类别的置信度。而对于Web垃圾评论，则采用基于规则判断的方法，对垃圾评论进行评价。Web垃圾信息评价系统在实际Web环境中的应用证实，提出的方案能够有效的对Web中的垃圾信息进行评价，具有较高的准确率和召回率。同时，提出的识别Web垃圾信息的特征中，很多特征对评价Web垃圾信息都是十分有意义的。

其他文献

面向PKUnity-3(SK)系统芯片的高性能存储管理部件设计与研究

随着处理器频率的提高，处理器与存储系统之间的性能差异越来越大。存储层次的设计，成为计算机系统设计中的重要研究对象。现代微处理器通常使用MMU来对内存空间进行管理。如何

学位

微处理器存储管理地址转换

数据流管理系统Argus中稳定重优化模块的设计与实现

目前，关于数据流系统的研究在传感器网络、金融分析、网络流量监测等领域有着大量应用。而针对数据流本身快速、连续、时变、瞬时等特性，如何为数据流管理系统设计一个具有自适

学位

自适应性滑动窗口小波变换时间序列分析数据流管理查询处理

一种基于XML的汉字构形描述方法的研究与实现

随着中文信息处理技术的迅猛发展，人们对汉字的信息化需求日益增加。在信息化系统中汉字用一个编码代替，可以实现信息的记录、检索等各种功能。但是，对于汉字本身的信息处理(如

学位

汉字构形轮廓字库字符集中文信息处理

基于领域知识的时空异常气候模式挖掘研究与实现

我国处于东亚季风区，主要受来自西伯利亚高压的冬季风和北太平洋高压的西部边缘吹向亚洲东部的夏季风影响。季风的年不均衡性是我国气候灾害形成的主要原因，有重要的研究意义。

学位

紧密类簇异常气候事件提取序列模式气候数据原型系统时空模式空间聚类东亚季风

曙光云服务器网络系统设计与实现

随着云计算、大数据和互联网服务的兴起，数据中心中出现了一类轻量级的可扩展的负载，传统的高性能服务器对这类负载的适配性并不是很好，主要体现在服务器计算密度低，资源利用率不

学位

云服务器网络系统设计理念分布式架构资源共享

数字图书馆应用中P2P平台核心模块的设计与实现

P2P技术的迅速发展给数字图书馆的建设提供了广阔的应用空间。分布式数字图书馆中的一些应用软件在分布式互操作方面具有较大的共通性，若能为它们提供一个通用的P2P应用平台和

学位

对等网络数字图书馆拓扑结构连接传输方式

Web环境中实体关系图构建和路径发现子系统的设计与实现

随着Internet的快速发展，Web环境已拥有了海量信息。Web信息中包含大量有用的知识：通过Web信息挖掘，我们可以获取这些知识并将加以应用。基于Web的实体关系图的构建就是Web信息

学位

实体关系图置信度算法路径发现穿行次数算法Web环境子系统设计词条实体

客户操作系统动态代码植入技术及其在内存虚拟化中的应用

本文提出了动态代码植入技术（Dynamic Code Implantation），它借用半虚拟化的方式，动态修改全虚拟化系统中客户操作系统(Guest OS)的内核代码。在有硬件辅助的全虚拟化虚拟机管理

学位

计算机网络虚拟机管理客户操作系统代码植入

大豆作物生长的动态三维可视化模拟

虚拟植物是应用计算机模拟植物在三维空间中的生长发育状况，是虚拟现实技术在农业领域的应用。其核心内容是生长模型和可视化技术，生长模型反映植物形态结构的动态变化，可视化技

学位

大豆作物生长生长模型三维可视化虚拟现实

信息检索系统查询词义聚类技术研究与实现

一词多义是普遍现象，而且随着时代的发展和语言的丰富，词义在使用中随时在变化着，这是语言学家也无法准确把握或预测的现象，本文利用索引系统对实体名词的多义进行了分析，希望可以

学位

多义词查询词信息提取搜索引擎信息检索聚类技术

Web垃圾信息评价系统的研究与实现

其他学术论文