基于关键词图表示的文本语义去重算法 |
| |
引用本文: | 汪锦云,向阳.基于关键词图表示的文本语义去重算法[J].计算机应用,2023(10):3070-3076. |
| |
作者姓名: | 汪锦云 向阳 |
| |
作者单位: | 同济大学电子与信息工程学院 |
| |
基金项目: | 国家自然科学基金资助项目(72071145)~~; |
| |
摘 要: | 网络中存在大量语义相同或者相似的冗余文本,而文本去重能够解决冗余文本浪费存储空间的问题,并能为信息抽取任务减少不必要的消耗。传统的文本去重算法依赖文字重合度信息,而没有较好地利用文本语义信息,同时也无法捕捉长文本中距离较远句子之间的交互信息,去重效果不理想。针对文本语义去重问题,提出一种基于关键词图表示的长文本去重算法。首先,通过抽取文本对中的语义关键词短语,将文本对表示为以关键词短语为节点的图;其次,通过多种方式对节点进行编码,并利用图注意力网络(GAT)学习节点之间的关系,从而得到文本对图的向量表示,并判断文本对是否语义相似;最后,根据文本对的语义相似度进行去重处理。与传统算法相比,所提算法能有效利用文本的语义信息,并能通过图结构将长文本中距离较远的句子用关键词短语的共现关系连接起来,从而增加不同句子之间的语义交互。实验结果表明,所提算法在两个公开数据集CNSE (Chinese News Same Event)和CNSS(Chinese News Same Story)上都取得了比Simhash、BERT (Bidirectional Encoder Representation...
|
关 键 词: | 文本语义去重 关键词抽取 文本匹配 图表示 图注意力网络 |
|