复杂文本验证码自动识别关键技术研究及实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:klwxm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本验证码,是目前使用最为广泛的验证码机制,有效防止了计算机程序对网站的恶意行为,在一定程度上保障了网络系统的安全与稳定。针对文本验证码的识别研究在机器人流程自动化(Robotic Process Automation,RPA)等项目中具有较高的应用价值,也可以促进网站设计更安全的验证码以保障网络安全。为了增加破解难度,文本验证码的设计方式经历了由简单到复杂的转变,字符、背景、类型的复杂化以及文本的不定长设计使得传统的光学字符识别技术不能满足通用识别需求。随着基于深度学习的场景文字识别技术和图像分类技术的发展,其算法简化了预处理和特征提取步骤,可以很好地解决上述问题,具有很强的应用于复杂文本验证码识别场景的潜力。本论文的创新点是将基于深度学习的图像分类技术与场景文字识别技术结合,应用于复杂文本验证码场景,研究并实现了复杂文本验证码自动识别算法,为文本验证码识别技术提供新思路。本论文总结了四类复杂文本验证码,分别为成语类、汉字数字算式类、数字算式类以及英文数字类,并制作了分类和识别数据集展开研究,主要的工作包括三部分:(1)基于残差网络(Residual Network,Res Net)研究搭建了Res Net分类模型进行复杂文本验证码分类任务,实现了高达98.42%的准确率。该网络通过残差结构避免了梯度消失等问题,并通过快捷连接路径实现了特征的充分利用,同时通过合理的网络结构设置控制了计算量,使得分类任务高效且精准。(2)基于场景文字识别经典算法卷积循环神经网络对于不定长文本识别的优势,将Res Net网络、视觉注意力机制与之结合,提出了注意力残差卷积循环神经网络(Attention Residual Recurrent Neural Network,AR-RNN)用于复杂文本验证码识别任务,对于四类复杂文本验证码分别达到了93.68%、97.21%、94.43%、98.03%的识别精度。(3)将Res Net分类模型与AR-RNN识别模型结合并加入数学计算步骤,成功实现了复杂文本验证码自动识别算法,在识别成功率和推理时间上均达到了很好的效果。将其应用到RPA项目实践中,设计并实现了验证码识别子系统,证明了本文研究工作的实用价值。本论文提出的复杂文本验证码自动识别算法,具有较高的识别准确率和高效的网络结构,为其日后应用于更多需要破解验证码的领域提供了更高的可能性。
其他文献
随着列车运行控制系统技术的发展,以全球卫星导航系统(Global Navigation Satellites System,GNSS)实现“车载中心化”的列车定位需要电子轨道地图作为参考,是目前列车定位的重要研究方向。其地理位置信息及拓扑关系能够有效辅助列车占用轨道识别和列车完整性检查。电子轨道地图是列控系统的重要信息源,对列控系统提高列车定位精度、降低运营成本、提高运输效率起到关键作用,因此研究
受新冠疫情影响,大量餐馆倒闭人工服务业受到重创。为改善用餐环境、降低疫情传播风险,本文设计了一款基于ROS(机器人操作系统,Robot Operating System),集图像识别、机械臂控制、AGV(自动导航小车,Automated Guided Vehicle)导航避障为一体的智能送餐机器人。与传统设计方案相比,基于ROS的设计更加泛化,可移植算法到其配备的仿真软件中进行可靠性测试,减少重复
随着移动设备的普及与互联网的发展,在线广告已经成为互联网公司商业变现的重要手段。传统广告投放模式下,广告投放系统通过在用户浏览页面时强制展示广告的方式实现广告的触达,广告的展示形式与页面内容上下文独立,用户频繁被不感兴趣的广告所打扰,用户体验较差。并且由于投放策略单一,传统广告投放无法满足广告主不断增加的目标人群精准化的广告触达诉求。为解决上述问题,本文设计并实现了面向信息流的广告投放系统。该系统
质量管理与控制是企业实现预防原则、保持生产稳定的重要手段。只有工序质量满足制造要求,才能实现产品开发设计时所设定的质量目标、生产出满足用户期望的优质装备产品。传统的工序质量分析系统主要以excel计算方式和小型质量分析计算系统为主,其计算能力有限。随着公司装备部门业务规模的扩大以及工厂实际生产能力的提升,相关的工业装备数据出现了爆炸式的增长,平均每天需接入十亿级数据量。传统的工序质量分析系统在处理
进入新时代以后,我国经济发展日新月异,城市化进程日益加快,轨道交通行业进入了飞速发展期。城轨列车由于它高效、节能和运量大的特点,逐渐成为城市居民日常出行的首选交通工具,列车的安全运营也变得愈发重要。通常情况下,城轨列车的安全运行由列车的自动防护系统(ATP,Automatic Train Protection)保障。近年来,地铁公司营运的列车在实际营运过程中,由于ATP系统切除后,引发的安全事故越
模糊测试技术(fuzzing)由于自动化程度高,测试速度快的优点,已经被证明是最有效的漏洞检测技术之一。然而模糊测试的测试用例生成方式过于盲目和随机,导致其浪费大量时间用于无效测试。以覆盖率为导向的灰盒模糊测试是一种白盒模糊测试与黑盒模糊测试相结合的漏洞检测技术,它通过在程序中轻量级插桩获取程序运行时的关键信息,同时利用这部分关键信息引导测试用例生成,以探索程序的新路径。AFL(American
比特币的迅猛发展彻底改变了数字货币领域,为信用卡支付和网上银行等电子支付方式提供了一种新的替代。区块链是比特币的技术基础,自2009年诞生以来吸引了众多行业利益相关者的目光。区块链去中心化的设计解决了目前中心化模式存在的安全性低、可靠性差、低效率、高成本等问题。从金融和医疗保健领域到公用事业和政府部门,区块链的应用越来越广泛。但是区块链技术迅速发展的同时,也面临越来越多的技术挑战。区块链公开透明的
为了实现对城市轨道交通信号系统的优化,基于车车通信、全IP化架构和云计算技术的新型列控系统被提出,现已成为世界各国城轨交通的主要发展方向。新型列控系统在简化了整体结构的同时,也对设备之间的数据传输实时性有了更高要求,并且由于城轨列车在行进过程中会频繁地触发越区切换,严重影响实时性,而现有等重传间隔的重传方式只会进一步加剧网络拥塞,因此,采用新的传输结构和重传方式改善系统在越区切换等通信降质情况下的
随着国民经济快速发展,人们消费观念不断改变,消费场景不断升级。在物质极大丰富的今天,服装产品的生命周期不断缩短,服装行业的更新迭代越来越快。与此同时人们也追求多元化的消费场景,通过实体店或移动端、PC端等全渠道的方式实现商品的浏览与支付。因此影响消费者需求的因素变得更加复杂,不同购买渠道的影响因素不同,在服装生命周期不同阶段的影响因素也不同。所以对于消费者的不确定需求,服装企业要根据不同品类的服装
石墨氮化碳(g-C3N4)作为一种成本低廉且无毒的半导体,因具有合适的带隙,较高的化学稳定性和对可见光的响应等特点,被广泛应用于光催化领域。然而,它比表面积小,带隙相对较窄,光生电子空穴复合率高等缺点,限制了它的使用。金属有机框架(MOFs)材料具有很多与g-C3N4互补的特性,如大的比表面积,结构多样性等。MOFs可以与g-C3N4复合,二者可以构建为异质结材料,弥补g-C3N4的缺点,提高光催