融合边特征与注意力的表格结构识别模型 |
| |
引用本文: | 吕学强,张煜楠,韩晶,崔运鹏,李欢.融合边特征与注意力的表格结构识别模型[J].计算机应用,2023(3):752-758. |
| |
作者姓名: | 吕学强 张煜楠 韩晶 崔运鹏 李欢 |
| |
作者单位: | 1. 网络文化与数字传播北京市重点实验室(北京信息科技大学);2. 农业农村部农业大数据重点实验室(中国农业科学院农业信息研究所) |
| |
基金项目: | 国家自然科学基金资助项目(62171043)~~; |
| |
摘 要: | 针对现有方法在表格结构识别问题中存在的先验知识依赖、鲁棒性不足、表达能力不足等问题,提出一种新的融合边特征与注意力的表格结构识别模型——GEAN-TSR。首先,提出图边注意力网络(GEAN)并作为模型的主干网络,在边卷积结构的基础上引入并改进图注意力机制聚合图节点特征,解决图网络在特征提取过程中的信息损失的问题,提高图网络的表达能力;然后,引入边特征融合模块融合浅层图节点信息与图网络输出,增强图网络的局部信息提取能力与表达能力;最后,将门控循环单元(GRU)提取的图节点文本特征融入文本特征融合模块对边进行分类预测。在SciTSR-COMP数据集上的对比实验中,相较于目前最优的模型SEM,GEAN-TSR的召回率与F1值分别提升2.5与1.4个百分点。在消融实验中,GEAN-TSR采用特征融合模块后,所有指标都取得了最优值,验证了模块的有效性。实验结果表明,GEAN-TSR能够有效提升网络性能,更好地完成表格结构识别任务。
|
关 键 词: | 图神经网络 图注意力网络 特征融合 表格结构识别 表格解析 |
|
|