首页 | 本学科首页   官方微博 | 高级检索  
     

基于深度学习的藏文分词方法
引用本文:李博涵,刘汇丹,龙从军,吴健.基于深度学习的藏文分词方法[J].计算机工程与设计,2018(1):194-198.
作者姓名:李博涵  刘汇丹  龙从军  吴健
作者单位:中国科学院软件研究所;中国科学院大学计算机与控制学院;中国社会科学院民族学与人类学研究所
基金项目:国家自然科学基金项目(61303165;61540057;61132009);青海省自然科学基金项目(2016-ZJ-Y04;2016-ZJ-740);国家语委重点基金项目(ZDI135-17)
摘    要:重点研究将深度学习技术应用于藏文分词任务,采用多种深度神经网络模型,包括循环神经网络(RNN)、双向循环神经网络(Bi RNN)、层叠循环神经网络(Stacked RNN)、长短期记忆模型(LSTM)和编码器-标注器长短期记忆模型(Encoder-Labeler LSTM)。多种模型在以法律文本、政府公文、新闻为主的分词语料中进行实验,实验数据表明,编码器-标注器长短期记忆模型得到的分词结果最好,分词准确率可以达到92.96%,召回率为93.30%,F值为93.13%。

关 键 词:深度学习  藏文分词  循环神经网络  长短期记忆  编码器-标注器

Tibetan word segmentation based on deep learning
Abstract:
Keywords:deep learning  Tibetan word segmentation  recurrent neural network  long short-term memory  encoder-labeler
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号