针对文档图像的非对称式几何校正网络 |
| |
作者姓名: | 秦海 李艺杰 梁桥康 王耀南 |
| |
作者单位: | 湖南大学电气与信息工程学院, 长沙 410082;机器人视觉感知与控制技术国家工程研究中心, 长沙 410082 |
| |
基金项目: | 国家重点研发计划资助(2021YFC1910402);国家自然科学基金项目(62073129,U21A20490,62293510);湖南省自然科学基金项目(2022JJ10020) |
| |
摘 要: |  目的 文档图形的几何校正是指通过图像处理的方法对图像采集过程中存在的扭曲、畸变和歪斜等几何干扰进行处理,以提升原始图像的视觉效果与光学字符识别(optical character recognition,OCR)精度。在深度学习普及以前,传统的图像处理方法需要使用激光扫描仪等辅助硬件或在多视角下对文档进行拍摄,且算法的鲁棒性欠佳。深度学习方法构建模型能规避传统算法的不足,但在现阶段这些模型还存在一定的局限性。针对现有算法的缺陷,提出了一种集成文档区域定位与校正的轻量化几何校正网络(asymmetric geometry correction network,AsymcNet),端到端地实现文档图像的几何校正。方法 AsymcNet由用于文档区域定位的分割网络和用于校正网格回归的回归网络构成,两个子网络以级联的形式搭设。由于分割网络的存在,AsymcNet对于各种视野下的文档图像均能取得良好的校正效果。在回归网络部分,通过减小输出回归网格的分辨率来降低AsymcNet在训练及推理时的显存耗用和时长。结果 在自制的测试数据集中与业内最新的4种方法进行了比较,使用AsymcNet可以将原始图像的多尺度结构相似度(multi-scale structural similarity,MS-SSIM)从0.318提升至0.467,局部畸变(local distortion,LD)从33.608降低至11.615,字符错误率(character error rate,CER)从0.570降低至0.273。相比于业内效果较好的DFE-FC(displacement flow estimation with fully convolutional network),AsymcNet的MS-SSIM提升了0.036,LD降低了2.193,CER降低了0.033,且AsymcNet处理单幅图像的平均耗时仅为DFE-FC的8.85%。结论 实验验证了本文所提出AsymcNet的有效性与先进性。
|
关 键 词: | 图像预处理 几何校正 全卷积网络(FCN) 网格采样 端到端 |
收稿时间: | 2022-05-05 |
修稿时间: | 2022-12-21 |
|
| 点击此处可从《中国图象图形学报》浏览原始摘要信息 |
|
点击此处可从《中国图象图形学报》下载免费的PDF全文 |
|