基于深度学习的藏文分词方法 Tibetan word segmentation based on deep learning期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于深度学习的藏文分词方法

引用本文：	李博涵,刘汇丹,龙从军,吴健. 基于深度学习的藏文分词方法[J]. 计算机工程与设计, 2018, 0(1): 194-198

作者姓名：	李博涵刘汇丹龙从军吴健

作者单位：	中国科学院软件研究所;中国科学院大学计算机与控制学院;中国社会科学院民族学与人类学研究所

基金项目：	国家自然科学基金项目(61303165;61540057;61132009);青海省自然科学基金项目(2016-ZJ-Y04;2016-ZJ-740);国家语委重点基金项目(ZDI135-17)

摘要：	重点研究将深度学习技术应用于藏文分词任务,采用多种深度神经网络模型,包括循环神经网络(RNN)、双向循环神经网络(Bi RNN)、层叠循环神经网络(Stacked RNN)、长短期记忆模型(LSTM)和编码器-标注器长短期记忆模型(Encoder-Labeler LSTM)。多种模型在以法律文本、政府公文、新闻为主的分词语料中进行实验,实验数据表明,编码器-标注器长短期记忆模型得到的分词结果最好,分词准确率可以达到92.96%,召回率为93.30%,F值为93.13%。
关键词：	深度学习藏文分词循环神经网络长短期记忆编码器-标注器
Tibetan word segmentation based on deep learning

Abstract:

Keywords:	deep learning Tibetan word segmentation recurrent neural network long short-term memory encoder-labeler
本文献已被维普等数据库收录！