DPENet:轻量化文档姿态估计网络 |
| |
作者姓名: | 韩晶 吕学强 张祥祥 郝伟 张凯 |
| |
作者单位: | 1.北京信息科技大学 网络文化与数字传播北京市重点实验室,北京 1001012.首都师范大学 中国语言智能研究中心,北京 100048 |
| |
摘 要: | 现有的用于矫正透视倾斜变形文档的深度学习模型存在空间泛化性差、模型参数量大、推理速度慢等问题。从姿态估计的角度出发,提出一种轻量化文档姿态估计网络DPENet(lightweight document pose estimation network),以优化上述问题。将文档图像中的单一文档视为一个姿态估计对象,将文档的四个角点视为文档对象的四个姿态估计点,采用兼具全连接回归与高斯热图回归优点的DSNT(differentiable spatial to numerical transform)模块实现文档图像角点的高精度定位,并通过透视变换处理实现透视变形文档图像的高精度矫正。DPENet采用轻量化设计,以面向移动端的MobileNet V2为主干网络,模型体量只有10.6?MB。在SmartDoc-QA(仅取148张文档图像)数据集上与现有的三种主流网络进行了对比实验,实验结果表明,DPENet的矫正成功率(96.6%)和平均位移误差(mean displacement error,MDE)(1.28个像素)均优于其他三种网络,同时其平均矫正速度也有良好的表现。在保持轻量化和速度快的条件下,DPENet网络具有更高的变形文档矫正成功率和矫正精度。
|
关 键 词: | 姿态估计 深度学习 文档图像矫正 轻量化网络 MobileNetV2 |
|
| 点击此处可从《计算机工程与应用》浏览原始摘要信息 |
|
点击此处可从《计算机工程与应用》下载免费的PDF全文 |