面向自然场景中商户门店名称识别的深度学习算法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:iloveyanqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展以及各种具备拍照功能的移动终端的普及,各种终端所拍摄到自然场景的图片往往包含一定的语义信息,因此自动检测和识别图片中的文字信息具有很广泛的应用场景,例如车牌识别、护照阅读器等等。随着电商的蓬勃发展,一些店铺想要与某些电商平台如美团、银联等登记入网的时候,需要店铺上传自己的门店照片信息供平台审核,而人工审核耗时费力,使用人工智能技术辅助可以提高工作效率降低错误率。但传统的OCR(Optical Character Recognition,光学字符识别)技术并无法解决复杂场景下的文字识别问题。自然场景中的文字识别算法基本分为两个步骤:文本检测和文字识别。目前基于深度学习的文本检测方法主要有两种,基于候选框或者基于分割的检测方法。基于候选框的基本思想一般是从图片中生成大量候选文本框,然后使用NMS(Non-Maximum Suppression,非极大值抑制算法)得到最终结果。基于分割的算法基本是通过对图片进行像素级的语义分割,然后在分割结果的基础上构建完整文本行。现有的模型对于英文字符的检测和识别都具有比较好的效果,因为英文字符尺寸基本一致,且只有26个,类别较少,但是汉字大小不一,且种类繁多,常用汉字个数就达到了 5000个,因此想要分类准确极其困难。针对自然场景中的门店名称复杂多变的特点,本文提出了一套针对此特定场景下的端对端文字识别与检测方案。整套方案由三个算法组成:基于像素语义分割模型PixelLink的文本检测算法,基于循环卷积神经网络的文本识别算法,以及基于音形码相似度计算的字符校正算法。针对中文和英文字符的差异性,我们训练了两套不同的模型来提高端到端识别的准确率。另外,针对字符校正模块,我们对核心算法进行了多层级的并行优化,提高了该算法的运行效率。我们在银联提供的自然场景文本数据集上进行了文本检测与文字识别实验,经过结果统计,在样本个数和标签个数为多对一的测试集上准确率可达76.6%,在一对一的测试集上准确率达到了51.7%。通过对算法输出的中间结果进行统计可以发现,我们提出的基于音形码的文本相似度计算算法对总体准确率有较大的提升效果,实验结果表明本文所提出的方案适用于解决自然场景中门店名称识别的问题。
其他文献
1前言高性能船是以现代流体力学理论为基础,采用先进的推进、传动、控制、新型材料等高技术,有别于常规排水船型,且具有某种或若干种性能特殊优势(包括快速性、耐波性、隐身
会议
城市短期供水量预测是城市供水系统优化调度的基础,可为水务公司的优化调度做出决策,提高水资源利用率,同时节约能耗。本文为进一步提高城市短期供水量预测的精度,利用收集某市水厂的实测数据(时间步长为15分钟)为研究对象,开展了基于PSO-ANN-LSSVM的城市短期供水量组合预测模型研究,主要研究成果及结论如下:(1)基于数据预处理技术及混沌理论对原供水量时间序列进行降噪处理和混沌特性判定。首先判断出原
肿瘤血管提供肿瘤增殖所必需的氧气和营养物,几乎所有的肿瘤都具有无限生成血管的能力。同传统疗法相比,血管靶向疗法几乎适用于所有实体瘤,而且利用凝血级联放大的优势,可在
7月8日,成都市庆祝中国共产党成立100周年理论研讨会举行,深入学习贯彻习近平总书记"七一"重要讲话精神,深入研讨中国共产党百年奋斗的光辉历程、伟大成就和宝贵经验,统一思
由于钙钛矿材料具有成本低廉,高吸光系数和低带隙等特点,钙钛矿太阳能电池(PSC)从2009年被发明以来,仅十年的时间,其光电转换效率就已突破23%。钙钛矿太阳能电池效率的提高令人
汽车加强板是保证车辆安全性能最重要的组成部分,在无法避免碰撞事故的情况下,它能够使汽车在整体上得到强化,并有效吸收和衰减车辆碰撞时的冲击能量,其质量的好坏直接影响到汽车质量的安全性能。因此,在板料成形过程中,不仅要考虑板料本身的材料性能,还需要对相关工艺参数进行合理的设置。本文基于板料成形的力学与有限元理论的基础上,研究对象以某品牌汽车侧底梁中加强板,来研究其成形过程中出现缺陷的主要原因。使用专业
图中参数与树形结构的存在性是图论中一个重要研究课题,对其进行研究不但有重大的理论意义,而且在理论计算机科学、生命科学和信息科学中有很强的应用背景.本文主要研究图中
卷烟制丝加料工序是卷烟生产过程中的关键工序,烟叶受料均匀与否直接影响卷烟的感官品质,对于如何判断烟叶受料是否均匀,目前国内烟草行业主要通过对烟草和料液混合后的结果
中低碳轴承钢经表面强化处理后,表面硬度高且心部韧性好,具有较高的耐磨和抗疲劳性能,且具有一定抵抗冲击载荷的能力,广泛应用于航空航天等领域。本文探究了中低碳铬钼轴承钢的组织和强韧性能以及经氮化、渗碳处理后渗层组织及硬度分布特征,分析了心部高强韧、表面高强度组织特征与合金元素作用规律的研究;在此基础上,主要研究了中碳Cr-Mo轴承钢的耐磨性能和疲劳行为,并分析了表面强化层抗磨损疲劳作用。中碳铬钼钢经调
研究目的:本研究结合目前我国基层卫生信息化发展的现状,梳理国内外基层卫生信息化评价指标体系,构建区域基层卫生信息化综合评价模型,确定指标权重,检验指标体系的信、效度,实现定量地对各区域基层卫生信息化的发展水平进行综合测评。研究内容:1、通过文献阅读和网络资料收集,整理国内外关于基层卫生信息化的研究现状和基础理论,构建指标备选库。2、提出区域基层卫生信息化评价的初步框架,筛选指标形成评价指标体系。3