论文部分内容阅读
20世纪90年代初期,由Vapnik等人所提出的支持向量机(SVM)是在统计学理论基础上发展进而产生的一个崭新的学习系统,在文本分类、手写字符识别、图像分类、生物序列分析等实际应用中具有很高的泛化学习性能。随着在理论方面不断深入,在实践中不断发展,SVM目前已成为机器学习和数据挖掘领域的标准工具。基于支持向量机的验证码识别在电子商务中有着广泛应用。电子商务的发展非常迅速,迫切需要一种推广方式来推销他们的商品,残障人士上网问题也需要迫切关注,因此许多人开始研究网络机器人技术,用于邮箱自动注册,群发信息,自动灌水,自动登录等功能,而这些功能都离不开验证码识别技术,验证码识别技术已成为当前这一领域的一个研究热点。本文详细介绍了支持向量机的基础理论、算法实现策略、模型和参数选择,研究了验证码图像处理、特征提取及验证码识别的具体方法,设计并实现了验证码识别方案,在验证码识别过程中取得了良好的效果。本文首先概述统计学习理论和支持向量机的构造方法,分析和研究了支持向量机的多类分类算法和核函数方法。其次,介绍了图像处理的各种基本算法,对验证码图像处理遇到的问题进行了分析,并采取不同的方法使验证码处理达到较好效果,方便了验证码特征向量的提取,同时还分析了几种不同的验证码特征提取方法的优劣。再次,介绍了SVM多类分类器的详细设计过程,分析了实现过程过程中遇到的情况,设计了良好的数据结构用来存储向量数据,提供了SVM训练接口和预测接口,分别用来训练支持向量机和预测分类结果。最后,综合以上理论,设计出基于C++的SVM算法,同时实现了验证码识别系统。从各类不同网站上下载具有典型特征的验证码进行实验的结果表明,该系统可非常有效地识别目前网络上流行的各类验证码。