基于Transformer的多模态级联文档布局分析网络 |
| |
引用本文: | 温绍杰,吴瑞刚,冯超文,刘英莉.基于Transformer的多模态级联文档布局分析网络[J].浙江大学学报(自然科学版 ),2024(2):317-324+369. |
| |
作者姓名: | 温绍杰 吴瑞刚 冯超文 刘英莉 |
| |
作者单位: | 1. 昆明理工大学信息工程与自动化学院;2. 昆明理工大学云南省计算机技术应用重点实验室 |
| |
基金项目: | 国家自然科学基金资助项目(52061020,61971208);;云南省重大科技专项资助项目(202302AG050009); |
| |
摘 要: | 针对现有方法在文本和图像模态的预训练目标上存在嵌入不对齐,文档图像采用基于卷积神经网络(CNN)的结构进行预处理,流程复杂,模型参数量大的问题,提出基于Transformer的多模态级联文档布局分析网络(MCOD-Net).设计词块对齐嵌入模块(WAEM),实现文本和图像模态预训练目标的对齐嵌入,使用掩码语言建模(MLM)、掩码图像建模(MIM)和词块对齐(WPA)进行预训练,以促进模型在文本和图像模态上的表征学习能力.直接使用文档原始图像,用图像块的线性投影特征来表示文档图像,简化模型结构,减小了模型参数量.实验结果表明,所提模型在PubLayNet公开数据集上的平均精度均值(mAP)达到95.1%.相较于其他模型,整体性能提升了2.5%,泛化能力突出,综合效果最优.
|
关 键 词: | 文档布局分析 词块对齐嵌入 Transformer MCOD-Net模型 |
|