首页 | 本学科首页   官方微博 | 高级检索  
     

基于相关词向量的彝文分词模型研究
作者姓名:汪文涛
作者单位:西南民族大学电子信息学院
基金项目:西南民族大学中央高校基本科研业务费专项资金项目(2021NYYXS75);
摘    要:彝文作为少数民族语言之一,词与词之间没有明显的分界符,并且不同词之间的组合也比较复杂。由于彝文标注数据较少且难以获取,而彝文的词典文献资料较多,设计了借助自建词表的深度学习模型对彝文进行分词。首先将文本转换成向量形式,利用BILISTM获取向量的序列信息,在将BILSTM得到的向量传入CRF层之前需要加入词表中每个字所在词的相关词向量信息,最后送入CRF层得到预测结果,在自建的数据集上得到了良好的分词效果。

关 键 词:彝文分词  BILSTM  条件随机场
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号