基于GAN和中文词汇网的文本摘要技术 |
| |
引用本文: | 刘晓影,王淮,乌吉斯古愣.基于GAN和中文词汇网的文本摘要技术[J].计算机科学,2022(12):301-304. |
| |
作者姓名: | 刘晓影 王淮 乌吉斯古愣 |
| |
作者单位: | 华北计算技术研究所网络安全工作组 |
| |
基金项目: | 国家重点研发计划(2018YFC0831200)~~; |
| |
摘 要: | 随着神经网络技术的广泛应用,文本摘要技术吸引了越来越多科研人员的注意。由于生成式对抗网络(GANs)具有提取文本特征或学习整个样本的分布并以此产生相关样本点的能力,因此正逐步取代传统基于序列到序列(Seq2seq)的模型,被用于提取文本摘要。利用生成式对抗网络的特点,将其用于生成式的文本摘要任务。提出的生成式对抗模型由3部分组成:一个生成器,将输入的句子编码为更短的文本表示向量;一个可读性判别器,强制生成器生成高可读性的文本摘要;以及一个相似性判别器,作用于生成器,抑制其输出的文本摘要与输入的摘要之间的不相关性。此外,在相似性判别器中,引用中文的WordNet作为外部知识库来增强判别器的作用。生成器使用策略梯度算法进行优化,将问题转化为强化学习。实验结果表明,所提模型得到了较高的ROUGE评测分数。
|
关 键 词: | 文本摘要 生成式对抗网络 WordNet 强化学习 自然语言处理 |
|
|