TASSM_BS:基于Bi-LSTM和Self-Attention的藏文自动分句方法 |
| |
作者姓名: | 才让叁智 多拉 格桑多吉 洛桑嘎登 仁增多杰 |
| |
作者单位: | 1. 西北民族大学中国语言文学学部;2. 西藏大学信息科学技术学院;3. 青海师范大学藏语智能信息处理及应用国家重点实验室 |
| |
基金项目: | 国家社会科学基金(21VJXT013);;国家自然科学基金(62066042);;西藏自治区自然基金(XZ202101ZR0108G); |
| |
摘 要: | 自动分句在自然语言处理中具有重要的应用价值,是机器翻译、句法分析和语义分析等任务的重要前期工作环节。当前藏文自动分句中采用的基于词典的分句方法,以及基于词典和统计模型相结合的分句方法因受句尾词兼类现象和数据稀疏等问题的影响,分句效率较低。对此,该文提出了一种基于Bi-LSTM和Self-Attention的藏文自动分句方法。通过实验对比,该方法的宏准确率、宏召回率和宏F1值分别到达了97.7%、98.06%和97.88%,其结果优于所有对比方法。另外,在实验过程中还发现,当模型使用序列前端截补方式定长的数据时,其性能优于使用后端截补方式定长的数据;当模型使用基于Skip-gram的音节字表示时,其性能优于基于CBOW和随机生成的音节字表示。
|
关 键 词: | 藏文句子 分句 TSRM_BS模型 |
|