基于相关词向量的彝文分词模型研究 |
| |
作者姓名: | 汪文涛 |
| |
作者单位: | 西南民族大学电子信息学院 |
| |
基金项目: | 西南民族大学中央高校基本科研业务费专项资金项目(2021NYYXS75); |
| |
摘 要: | 彝文作为少数民族语言之一,词与词之间没有明显的分界符,并且不同词之间的组合也比较复杂。由于彝文标注数据较少且难以获取,而彝文的词典文献资料较多,设计了借助自建词表的深度学习模型对彝文进行分词。首先将文本转换成向量形式,利用BILISTM获取向量的序列信息,在将BILSTM得到的向量传入CRF层之前需要加入词表中每个字所在词的相关词向量信息,最后送入CRF层得到预测结果,在自建的数据集上得到了良好的分词效果。
|
关 键 词: | 彝文分词 BILSTM 条件随机场 |
|
|