融合多粒度特征的老挝语词性标注研究 |
| |
引用本文: | 唐文,周兰江,张建安.融合多粒度特征的老挝语词性标注研究[J].中文信息学报,2023(4):52-62. |
| |
作者姓名: | 唐文 周兰江 张建安 |
| |
作者单位: | 1. 昆明理工大学信息工程与自动化学院;2. 战略支援部队信息工程大学三院昆明大队 |
| |
基金项目: | 国家自然科学基金(61662040); |
| |
摘 要: | 词性标注是自然语言处理领域的基础任务之一。语料稀缺、词形复杂、存在大量低频词和未登录词,句式较长,在数据传递过程中信息易丢失,这些都是导致老挝语词性标注不准确的主要原因。因此,该文提出一种融合多粒度特征的老挝语词性标注方法,构建了融合老挝词、字符和音节特征的Transformer-CRF模型。首先,在传统词向量的基础上融合老挝语字符和音节特征向量,使模型在三个粒度级别上充分利用语料信息;其次,使用Transformer对老挝语句子进行长远上下文信息提取,解决重要信息丢失问题;最后,使用CRF提取相邻词性约束关系,从而获取最优词性标签。实验结果表明,在语料有限的情况下,该模型与其他主流模型相比达到了更显著的效果,精确率、召回率和F1值分别为94.76%、93.93%、94.34%。
|
关 键 词: | 多粒度 老挝语 词性标注 Transformer |
|
|