首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于CTPN网络的文档图像标题检测算法
作者姓名:郝聚涛  段静文  陈超  陈鸿龙
作者单位:上海电机学院电子信息学院;上海思贤信息技术有限公司
基金项目:上海电机学院博士科研启动基金(20200110)
摘    要:文档图像标题检测作为文档版面分析的特定应用在信息检索、机器翻译等方面存在广泛应用,也是学术研究的热点之一。传统基于规则的文档图像标题检测算法存在因为规则覆盖率有限导致算法泛化能力差的问题。本文提出一种基于CTPN的文档图像标题检测算法,首先检测图像中文本块,将每个文本块位置信息转化为标题检测模型所需的特征向量,并形成训练样本集,利用随机森林分类器学习样本分布。该算法结合了神经网络和随机森林分类器,算法泛化能力强,同时在给定样本分布下,标题检测算法具有较优的性能,可用于一般场景下文本图像标题检测。

关 键 词:标题检测  神经网络  文本行特征工程  分类算法
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号