论文部分内容阅读
互联网的飞速发展,信息的迅速膨胀,使得互联网中的网页数量呈指数级别增长。据Google的官方博客公布的最新数据,目前世界网络中存在的网页的数量已经达到了万亿的量级。网络信息的极大丰富对用户来说无疑具有十分重要的意义,但是信息数量的庞大和信息质量的良莠不齐也给用户在信息的选取上带来了极大的困难。搜索引擎的出现很好的解决了替用户寻找和推荐信息的问题。据CNNIC的调查显示,有64.7%的用户通过搜索引擎访问网络。而与此同时,搜索引擎返回的结果中只有排名靠前的部分网页才会被用户访问。因此,较高的排名对网页来说意味着流量和潜在的经济利益。于是,能够在搜索引擎中争取高的排名也就成了很多网页的目标。
Web垃圾技术(Web Spamming Technique)就是采用不正当的手段使网页在搜索引擎中获得比其自身价值高的排名的技术。Web垃圾技术的出现不仅严重影响了用户的体验,还会损害用户的利益。所以,如何预防和过滤Web垃圾信息就成了搜索引擎十分关注的问题。本文针对三种常见的Web垃圾技术,提出了对Web垃圾信息进行评价的方法。其中对于文本和链接垃圾网页,采用基于特征提取的分类方法。并且在对网页进行分类的同时给出网页所属类别的置信度。而对于Web垃圾评论,则采用基于规则判断的方法,对垃圾评论进行评价。Web垃圾信息评价系统在实际Web环境中的应用证实,提出的方案能够有效的对Web中的垃圾信息进行评价,具有较高的准确率和召回率。同时,提出的识别Web垃圾信息的特征中,很多特征对评价Web垃圾信息都是十分有意义的。