融合词语多特征的汉老短文本相似度计算 |
| |
引用本文: | 郭雷,周兰江,周蕾越.融合词语多特征的汉老短文本相似度计算[J].小型微型计算机系统,2023(4):759-765. |
| |
作者姓名: | 郭雷 周兰江 周蕾越 |
| |
作者单位: | 1. 昆明理工大学信息工程与自动化学院;2. 昆明理工大学津桥学院 |
| |
基金项目: | 国家自然科学基金项目(61662040)资助; |
| |
摘 要: | 词语作为文本构成中最具有语义表达的单位,将词语更多的特征如形态学、词性、词性权重等融入到词语语义的表达中,将提升文本相似度量的准确性.该文提出一种融合词语多特征的汉老短文本相似度计算方法,首先利用双向长短期记忆网络(BiLSTM)和卷积神经网络(CNN)分别提取汉老词语的形态学特征,将词向量拼接上形态学特征向量、词性向量、词性权重向量,然后利用BiLSTM和CNN提取汉老短文本的上下文特征和局部语义特征,接着加入ESIM交互注意力机制使汉老语义信息进行交互.最后计算汉老特征语义向量的相对差和相对积,将其结果拼接并输入到全连接层得到汉老双语短文本的相似度分数.实验结果表明,本文提出的方法在有限的语料下取得了更好的效果,F1值达到了78.67%.
|
关 键 词: | 汉语-老挝语 形态学 双向长短期记忆网络 ESIM交互注意力机制 |
|
|