基于深度学习的藏文分词方法 |
| |
引用本文: | 李博涵,刘汇丹,龙从军,吴健. 基于深度学习的藏文分词方法[J]. 计算机工程与设计, 2018, 0(1): 194-198 |
| |
作者姓名: | 李博涵 刘汇丹 龙从军 吴健 |
| |
作者单位: | 中国科学院软件研究所;中国科学院大学计算机与控制学院;中国社会科学院民族学与人类学研究所 |
| |
基金项目: | 国家自然科学基金项目(61303165;61540057;61132009);青海省自然科学基金项目(2016-ZJ-Y04;2016-ZJ-740);国家语委重点基金项目(ZDI135-17) |
| |
摘 要: | 重点研究将深度学习技术应用于藏文分词任务,采用多种深度神经网络模型,包括循环神经网络(RNN)、双向循环神经网络(Bi RNN)、层叠循环神经网络(Stacked RNN)、长短期记忆模型(LSTM)和编码器-标注器长短期记忆模型(Encoder-Labeler LSTM)。多种模型在以法律文本、政府公文、新闻为主的分词语料中进行实验,实验数据表明,编码器-标注器长短期记忆模型得到的分词结果最好,分词准确率可以达到92.96%,召回率为93.30%,F值为93.13%。
|
关 键 词: | 深度学习 藏文分词 循环神经网络 长短期记忆 编码器-标注器 |
Tibetan word segmentation based on deep learning |
| |
Abstract: | |
| |
Keywords: | deep learning Tibetan word segmentation recurrent neural network long short-term memory encoder-labeler |
本文献已被 维普 等数据库收录! |
|