首页 | 本学科首页   官方微博 | 高级检索  
     

融合边特征与注意力的表格结构识别模型
引用本文:吕学强,张煜楠,韩晶,崔运鹏,李欢.融合边特征与注意力的表格结构识别模型[J].计算机应用,2023(3):752-758.
作者姓名:吕学强  张煜楠  韩晶  崔运鹏  李欢
作者单位:1. 网络文化与数字传播北京市重点实验室(北京信息科技大学);2. 农业农村部农业大数据重点实验室(中国农业科学院农业信息研究所)
基金项目:国家自然科学基金资助项目(62171043)~~;
摘    要:针对现有方法在表格结构识别问题中存在的先验知识依赖、鲁棒性不足、表达能力不足等问题,提出一种新的融合边特征与注意力的表格结构识别模型——GEAN-TSR。首先,提出图边注意力网络(GEAN)并作为模型的主干网络,在边卷积结构的基础上引入并改进图注意力机制聚合图节点特征,解决图网络在特征提取过程中的信息损失的问题,提高图网络的表达能力;然后,引入边特征融合模块融合浅层图节点信息与图网络输出,增强图网络的局部信息提取能力与表达能力;最后,将门控循环单元(GRU)提取的图节点文本特征融入文本特征融合模块对边进行分类预测。在SciTSR-COMP数据集上的对比实验中,相较于目前最优的模型SEM,GEAN-TSR的召回率与F1值分别提升2.5与1.4个百分点。在消融实验中,GEAN-TSR采用特征融合模块后,所有指标都取得了最优值,验证了模块的有效性。实验结果表明,GEAN-TSR能够有效提升网络性能,更好地完成表格结构识别任务。

关 键 词:图神经网络  图注意力网络  特征融合  表格结构识别  表格解析
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号