首页 | 本学科首页   官方微博 | 高级检索  
     

基于Transformer的多模态级联文档布局分析网络
引用本文:温绍杰,吴瑞刚,冯超文,刘英莉.基于Transformer的多模态级联文档布局分析网络[J].浙江大学学报(自然科学版 ),2024(2):317-324+369.
作者姓名:温绍杰  吴瑞刚  冯超文  刘英莉
作者单位:1. 昆明理工大学信息工程与自动化学院;2. 昆明理工大学云南省计算机技术应用重点实验室
基金项目:国家自然科学基金资助项目(52061020,61971208);;云南省重大科技专项资助项目(202302AG050009);
摘    要:针对现有方法在文本和图像模态的预训练目标上存在嵌入不对齐,文档图像采用基于卷积神经网络(CNN)的结构进行预处理,流程复杂,模型参数量大的问题,提出基于Transformer的多模态级联文档布局分析网络(MCOD-Net).设计词块对齐嵌入模块(WAEM),实现文本和图像模态预训练目标的对齐嵌入,使用掩码语言建模(MLM)、掩码图像建模(MIM)和词块对齐(WPA)进行预训练,以促进模型在文本和图像模态上的表征学习能力.直接使用文档原始图像,用图像块的线性投影特征来表示文档图像,简化模型结构,减小了模型参数量.实验结果表明,所提模型在PubLayNet公开数据集上的平均精度均值(mAP)达到95.1%.相较于其他模型,整体性能提升了2.5%,泛化能力突出,综合效果最优.

关 键 词:文档布局分析  词块对齐嵌入  Transformer  MCOD-Net模型
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号