基于SVM主动学习的微信公众平台文章监测与实现

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:wwjnb2009888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来互联网快速的发展,新兴媒介也不断的涌现,并向移动端蔓延。在智能手机普遍使用的情况下,更是加速了新媒介向移动终端发展的进程。微信作为一款运行在移动端上的社交软件,它与个人的相关信息紧密相连。微信用户增加的同时,微信的信息量也在快速的增长,各种微信信息传播的内容良莠莫辨,与此同时,对微信的舆情挖掘研究也变得日趋重要。与微博相比,微信中信息的传播与推广都很难被发现,所以建立一种微信内容的监测系统就显得很有必要。  本文针对微信公众平台的文章难以监控这一难题提出了解决方案,首先通过爬虫采集微信公共平台中的文章,结合本文提出的支持向量机(SVM)与主动学习算法对采集到的文章进行分类,并把不同类别的文章数量统计出来,分类出比较敏感的文章,从而实现了微信公众平台文章监测的目的。最后,针对分类出的敏感文章,可以通知相关公众平台进行修改,从而达到净化网络的目的。  本文的主要工作是改进了SVM主动学习算法模型,并把改进的模型应用在了微信公众平台的文章监测中。在对文章进行分类的过程中,为了减少训练样本所需要的代价,选择出区分度高、合理性强的训练样本集是很重要的,而本文正是在训练样本集的过程中提出的改进,在训练样本采集过程时,根据文章在不同类别中的关键词词频不同,对文章做出模糊的类别标注,这使得在训练样本采集过程中提高了训练样本的区分度,从而使算法能训练出更好的分类器,这样在主动学习过程中就会提高标注效率和分类准确率。最后通过实验结果表明,改进的SVM主动学习算法在文本分类中的可行性和性能的优越性,并与传统的SVM分类算法相比在效率上有了一定的提高。
其他文献
人体姿态识别是计算机视觉领域的一个重要研究方向,它在众多领域具有广阔应用前景,比如智能监控、高级人机交互、人体运动分析等。但是碍于普通光学图像容易受光照、阴影等外界
近年来,基于点云的岩体三维重建成为岩体工程中的研究热点。由于在数据获取时测量仪器的视野有限或目标场景复杂等因素的限制,目标物体的全部表面信息无法通过一次测量获得,因此
该论文以医疗保险系统为实践背景,探讨了支持应用系统实现的软件复用的关键技术:软件抽象的方法、步骤,应用系统构件化技术,领域构件获取技术,构件管理技术,构件特征描述,构
数字家庭与数字电视是信息产业的重要组成部分,是三网融合政策顺利实施的保障和落脚点。发展数字家庭与数字电视产业,是培育新一代信息技术、推动产业结构转型升级、促进经济发
该文首先叙述了几种最优化方法及其在求解旅行商问题中的应用.这些最优化方法包括:模拟退火算法,Hopfield神经网络,遗传算法,蚁群算法,禁忌搜索,竞争算法,以及混合算法.初步
几何模型去噪是三维几何处理领域的一个基础问题,其目的是从输入的噪声模型中恢复或者重建出高质量的三维几何模型。去噪后的几何模型可被应用到几何处理、计算机动画和渲染等
该文着重研究微软的组件对象模型COM/DCOM和ActiveX应用开发技术.该文深入讨论了COM/DCOM和ActiveX的内在机制和应用集成技术,详细分析了COM/DCOM的接口和组件实现方法,在此
随着互联网的持续发展和日益普及,互联网成了人们生活、工作和学习中不可或缺的一部分。每个用户既是信息的获取者也是信息的提供者,这使得网上的信息呈现几何级增长,涉及面
核桃种植业已经成为云南省农民致富奔小康的骨干产业,核桃种植面积在逐年扩大,但核桃病虫害种类繁多,为害特征各不相同,而由于核桃种植户在核桃病虫害预防和诊治方面的知识比较欠
近年来,随着互联网技术的不断快速发展,网络中的数据量日益庞大,大多数是以文本的形式存在的。如何有效处理这些海量数据,从中发现有用的信息成为一个迫切需要解决的问题。文