论文部分内容阅读
随着科技的不断发展,互联网上的信息呈现出爆炸式增长的局面,但信息质量良莠不齐,其中色情图片、广告图片、反动类图片等影响尤为恶劣。如何有效遏制不良信息在互联网的疯狂传播已成为一个亟待解决的问题。一方面,传统治理方法主要是依据图像浅层信息,在图片数量和样式日益增加的情况下,各类模型的表现均受到了限制和挑战。另一方面,由于图像型垃圾邮件自身的敏感性和特殊性,传统的深度学习网络模型并不能在这类图像上取得出色表现,新的网络结构和设计仍需要进一步探索。本论文致力于图像型垃圾邮件分类问题的研究,主要是根据垃圾邮件中包含的图像判断垃圾邮件的类别。相对于已经公开的垃圾图像数据集,本文从图像型垃圾中收集、整理了全新的数据集,一共有垃圾图片五万余张,分为七个不同类别,满足深度学习实验所需。本文提出了一种基于卷积神经网络(Convolutional Neural Network, CNN)和支持向量机(Support Vector Machine, SVM)的级联分类模型,并引入二次分类模型,提出了一种深度学习方法在图像型垃圾邮件分类任务中的应用方案。通过迁移学习和支持向量机的引入,改进后的卷积神经网络在模型结构和参数训练过程中都发生了很大变化。相比于原始的卷积神经网络及卷积神经网络和支持向量机的简单串联模型,改进后的级联模型在垃圾邮件图像数据集上有更好的分类表现;对于第二层分类模型,本文给出了第一级分类模型的分类效果和仍未解决的问题,根据实际情况给出了相关分析,通过对比实验最终找到了一个鲁棒性和区分能力都较好的局部特征,并设计了相关实验证明特征选择及模型设计的有效性。最后,本文针对现有模型的性能表现给予了客观评价,还对后续工作给出了可能深入的研究和改进的方向。