首页 | 本学科首页   官方微博 | 高级检索  
     

融合多粒度特征的老挝语词性标注研究
引用本文:唐文,周兰江,张建安.融合多粒度特征的老挝语词性标注研究[J].中文信息学报,2023(4):52-62.
作者姓名:唐文  周兰江  张建安
作者单位:1. 昆明理工大学信息工程与自动化学院;2. 战略支援部队信息工程大学三院昆明大队
基金项目:国家自然科学基金(61662040);
摘    要:词性标注是自然语言处理领域的基础任务之一。语料稀缺、词形复杂、存在大量低频词和未登录词,句式较长,在数据传递过程中信息易丢失,这些都是导致老挝语词性标注不准确的主要原因。因此,该文提出一种融合多粒度特征的老挝语词性标注方法,构建了融合老挝词、字符和音节特征的Transformer-CRF模型。首先,在传统词向量的基础上融合老挝语字符和音节特征向量,使模型在三个粒度级别上充分利用语料信息;其次,使用Transformer对老挝语句子进行长远上下文信息提取,解决重要信息丢失问题;最后,使用CRF提取相邻词性约束关系,从而获取最优词性标签。实验结果表明,在语料有限的情况下,该模型与其他主流模型相比达到了更显著的效果,精确率、召回率和F1值分别为94.76%、93.93%、94.34%。

关 键 词:多粒度  老挝语  词性标注  Transformer
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号