首页 | 本学科首页   官方微博 | 高级检索  
     

融合词语多特征的汉老短文本相似度计算
引用本文:郭雷,周兰江,周蕾越.融合词语多特征的汉老短文本相似度计算[J].小型微型计算机系统,2023(4):759-765.
作者姓名:郭雷  周兰江  周蕾越
作者单位:1. 昆明理工大学信息工程与自动化学院;2. 昆明理工大学津桥学院
基金项目:国家自然科学基金项目(61662040)资助;
摘    要:词语作为文本构成中最具有语义表达的单位,将词语更多的特征如形态学、词性、词性权重等融入到词语语义的表达中,将提升文本相似度量的准确性.该文提出一种融合词语多特征的汉老短文本相似度计算方法,首先利用双向长短期记忆网络(BiLSTM)和卷积神经网络(CNN)分别提取汉老词语的形态学特征,将词向量拼接上形态学特征向量、词性向量、词性权重向量,然后利用BiLSTM和CNN提取汉老短文本的上下文特征和局部语义特征,接着加入ESIM交互注意力机制使汉老语义信息进行交互.最后计算汉老特征语义向量的相对差和相对积,将其结果拼接并输入到全连接层得到汉老双语短文本的相似度分数.实验结果表明,本文提出的方法在有限的语料下取得了更好的效果,F1值达到了78.67%.

关 键 词:汉语-老挝语  形态学  双向长短期记忆网络  ESIM交互注意力机制
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号