基于多结构特征的垃圾博客识别研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:yhj740821
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
博客作为基于Internet的社交类应用,近年来保持了迅猛的发展势头,成为继Email、BBS和ICQ之后出现的第四种网络交流方式。博客在人际关系建立、维系和发展中发挥了越来越重要的作用,并已融入了人们的日常生活。随着博客影响力的不断加强,其副产品—垃圾博客也不断涌现。垃圾博客的大量出现已给博客的继续使用构成了一个很严重的威胁,不仅浪费存储资源和网络带宽,并通过增加搜索引擎的索引和计算开销,影响搜索结果的排名,从而降低了用户的搜索体验的满意度,影响用户获取高质量的信息。因此,如何精确的判断垃圾博客已成为信息检索领域亟待解决的难题之一,以及研究博客不能回避的一个问题。本文在已有的基于内容的垃圾博客特征提取基础上,提出了基于多结构特征对垃圾博客特征进行进一步提取的方法。本文从分析制造垃圾博客的作弊者的目的出发,分析了垃圾博客表现出的基于目录页和博文页面的各种结构特征,并对每种特征给出了特征提取的算法。从搜索引擎的结果中获取采集对象的地址,进而建立了更为真实和有针对性的垃圾博客识别数据集。提出了基于朴素贝叶斯和支持向量机分类方法的多结构特征垃圾博客识别模型。通过训练数据集进行参数设置,并使用测试数据集对识别模型进行检测。主要的研究内容包括以下几个方面:1.结合已有的研究,从基于作弊目的角度出发对垃圾博客表现出的结构特征进行了分析,并给出了特征提取算法。2.构建了博客采集系统。从搜索引擎的结果中获取采集对象的地址,采集用于垃圾博客识别的博客数据集,进行了预处理,并根据垃圾博客的定义对采集到的博客进行了人为的区分。3.提出了基于多结构特征的垃圾博客识别方法,并将上述识别方法分别与朴素贝叶斯方法和SVM结合构建了识别系统模型,利用训练数据集对模型训练后,使用测试数据集进行检测,将实验结果与基于内容的方法的结果进行了对比分析。
其他文献
网络作为信息的一个重要载体,其安全性是整个信息基础架构的安全基础,而网络的安全性离不开安全的网络协议.因此,网络安全协议本身是否安全是信息安全的一个重要因素.作为信
该文从运行机制、运行效率以及运行效果等几个方面对于现存且常用的十几种一致性算法进行了详尽的剖析与研究,在此基础上,提出了新的弧一致性算法和路径一致性算法.并且结合
飞行模拟转台是进行半实物仿真试验的重要设备之一.该文从一个新的角度出发,采用基于DSP的嵌入式控制系统和基于Windows NT的图形上位机环境,讨论了对一现有转台系统的进行改
本文首先介绍了软件测试的基本方法,并对这些方法各自的优势进行了比较。其次,对软件测试中常见的软件错误进行了分析和分类。再次,基于软件控制论的思想,应用受控马尔可夫链方法
该文通过研究一种8位实时操作系统AvrX的汇编代码,结合操作系统原理和其他操作系统如linux、μCOSⅡ、VxWorks的有关内容,分析了AvrX内核部分的实现机理,剖析了它的设计思想;
该文介绍了采用32位MCUMC68376和16位定点DSPTMS320LF2407为核心、基于异步电机变频调速的网络化、智能化的电梯主控系统.该系统采用了当前主流的高速芯片和新的电子技术,具
高精度转台是一种重要的惯导测试设备,测角系统是转台中最重要的组成部分之一.随着惯性器件及惯性系统精度的提高,对转台的精度和性能的要求也越来越高,进而对转台的测角系统
文章的第一部分简单介绍了管理信息系统开发中不适应环境变化的一些问题;第二部分介绍了一个实际系统的开发背景;第三部分详细描述了这一实际系统的部分业务处理过程;第四部
为了实现机器人头部的视觉跟踪,需要处理计算大量的图像信息,同时完成头部的实时运动控制.因此,该文提出了双计算机处理和Memolink通信方式的机器人控制结构,两台计算机分别
在该研究中,以指纹识别为研究对象,将小波变换和神经网络相结合应用于模式识别领域,并得出了相关结论.该文共分七章.第一章为该文的绪论.第二章全面介绍了该课题相关的基本理