基于Tesseract_OCR文字识别系统的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:studycomputer1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的发展,文字识别成为了日常生活中使用最为频繁的技术,特别是在图书馆、报社等地方。为节省成本,大量的图书、报纸和杂志等文本文档要以电子文档的形式进行存储。借助于不断更新换代的电子设备产品和技术,在对图书馆中的图书、期刊,报社的报纸、杂志或以图片形式保存的文字等进行OCR(Optical Character Recognition,光学字符识别)成为了实现智能输入的重要环节,不仅提高了行事效率又节省了成本开支。利用OCR技术进行文字信息识别时,只需要将文字载体制作成图片形式进行保存,进而输入到文字识别系统里即可。随着信息时代的发展,各国语言字体精确、快速地被成功识别成为了计算机科学领域的重要课题之一。因为要用到OCR技术对文字进行识别操作,所以原始文字图片的获取是文字可以被精确识别的一个重要因素。最为理想的图像采集设备是扫描仪,它不仅能保证图像没有任何背景并且还可以确保图像正面成像。但是扫描仪却不是生活中常具备的,多数情况下是使用手机摄像头进行文字图像的拍摄,虽然方便,但是这样拍摄出来的图像质量比较低,会出现一些不可预测的问题,比如不均匀的光线造成的失真,相机对焦不准确造成的图像模糊等。为了解决这些问题,论文首先对图像做了一系列的预处理工作,如图像二值化、锐化增强处理、去噪、矫正等。图像预处理过程是确保文字被正确识别的一个重要因素,同时也是训练自定义字符库时,常见文字被覆盖全面的重要保证。然后是Tesseract引擎源码的研究和使用,通过对源码的研究,更深层次研究文字识别的原理和流程。针对如何训练自定义字符库及训练过程的优化进行研究,并结合自定义的训练库实现文字识别系统。最后基于对图像处理的研究、C++11的应用以及tesseract引擎的研究对文字识别的整个过程进行封装,并使用MFC应用程序框架在VS2015环境下开发一款可视化界面工具,实现文字识别操作的整个流程。同时,对这个可视化工具进行了严格的黑盒、性能等测试工作,验证工具的健壮性和稳定性。
其他文献
随着可持续发展理念的普及,各种绿色能源的发展受到了很高的重视。其中太阳能以其资源量大、普遍性高、清洁无污的特点,已经发展成为绿色能源产业中重要的组成部分。光伏发电
综述了聚酯纤维阻燃化处理方法,分析了卤系和磷系阻燃剂及其对聚酯的阻燃改性作用。介绍了聚酯阻燃的新技术如纳米技术、微胶囊技术、硅系阻燃剂和复配技术。指出了今后聚酯阻
针对教育部2004—2008年的百篇优秀博士学位论文获得者进行研究.首先利用博士论文全文信息获取博士生在读期间的学术活动网络指标:博士前发表专著、博士前发表文章、第一年发