首页 | 本学科首页   官方微博 | 高级检索  
     

一种多基元联合训练的藏文词向量表示方法
引用本文:才智杰,才让卓玛,孙茂松.一种多基元联合训练的藏文词向量表示方法[J].中文信息学报,2020,34(5):44-49.
作者姓名:才智杰  才让卓玛  孙茂松
作者单位:1.青海师范大学 计算机学院,青海 西宁 810016;
2.西南民族大学 计算机科学与技术学院,四川 成都 610041;
3.青海省藏文信息处理与机器翻译重点实验室,青海 西宁 810008;
4.藏文信息处理教育部重点实验室,青海 西宁 810008;
5.清华大学 计算机科学与技术系,北京 100084
基金项目:国家自然科学基金(61866032,61966031,61163018,61262051);国家社会科学基金(13BYY141,16BYY167);教育部“春晖计划”合作科研项目(Z2012093,Z2016077);青海省基础研究项目(2017-ZJ-767,2019-SF-129,2017-GX-146);“长江学者和创新团队发展计划”创新团队资助项目(IRT1068);青海省重点实验室项目(2013-Z-Y17、2014-Z-Y32、2015-Z-Y03);藏文信息处理与机器翻译重点实验室(2013-Y-17)
摘    要:词向量表示是机器学习的基础性工作,其目标是以优化的向量表示词,以便计算机能更好地理解自然语言。随着神经网络技术的发展,词向量在自然语言处理领域发挥着重要作用。藏文词向量表示技术的研究对藏文特征分析以及用深度学习技术处理藏文具有重要意义。该文提出了一种构件、字和词多基元联合训练的藏文词向量表示方法,设计了多基元联合训练藏文词向量的模型TCCWE,并采用内部评测中的词相似度/相关性评价方式验证了其有效性。实验表明,该文提出的藏文词向量表示方法有效,其性能在TWordSim215上提高了3.35%,在TWordRel215上提高了4.36%。

关 键 词:自然语言处理  藏文  神经网络  词向量表示  

A Tibetan Word Embedding Representation Method Based on Multi-Primitives Joint Training
CAI Zhijie,CAI Rangzhuoma,SUN Maosong.A Tibetan Word Embedding Representation Method Based on Multi-Primitives Joint Training[J].Journal of Chinese Information Processing,2020,34(5):44-49.
Authors:CAI Zhijie  CAI Rangzhuoma  SUN Maosong
Abstract:Word Embedding representation is to represent words as an optimized vector so that computers can understand natural language. The study of Tibetan word embedding representation technology is of great significance for the analysis of Tibetan features and the use of deep learning techniques to process Tibetan. This paper proposes a Tibetan word embedding representation method for joint training of components, characters and words as multi-primitives, named as multi-primitives joint training model (TCCWE). This method is verified by words similarity/relevance task, and the results shows the proposed method improves the performance by 3.35% on TWordSim215, and 4.36% on TWordRel215.
Keywords:natural language processing  Tibetan  neural network  word embedding representation  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号