首页 | 本学科首页   官方微博 | 高级检索  
     

基于栈式降噪自编码和词嵌入表示的维吾尔语零指代消解
引用本文:秦越,禹龙,田生伟,冯冠军,吐尔根·依布拉音,艾斯卡尔·艾木都拉,赵建国.基于栈式降噪自编码和词嵌入表示的维吾尔语零指代消解[J].中文信息学报,2018,32(5):56-64.
作者姓名:秦越  禹龙  田生伟  冯冠军  吐尔根·依布拉音  艾斯卡尔·艾木都拉  赵建国
作者单位:1.新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046;
2.新疆大学 网络中心,新疆 乌鲁木齐 830046;
3.新疆大学 软件学院,新疆 乌鲁木齐 830008;
4.新疆大学 人文学院 新疆 乌鲁木齐 830046
基金项目:国家自然科学基金(61563051,61662074,61262064,61331011);新疆维吾尔自治区科技人才培养项目(QN2016YX0051)
摘    要:针对维吾尔语零指代现象,提出采用栈式降噪自编码的深度学习机制进行维吾尔语零指代消解。首先由大规模无标注维吾尔语语料训练得到富含语义和句法信息的词嵌入表示,将其作为候选先行语和缺省零代词的语义特征;其次根据维吾尔语语言特点,抽取14项针对零指代消解任务的手工设计特征;然后融合word embedding特征和14项hand-crafted特征作为栈式降噪自编码的输入,最后经过无监督逐层贪婪的预训练和有监督的微调过程,使用softmax进行分类完成维吾尔语零指代消解任务。实验结果表明,与传统栈式自编码、浅层机器学习的支持向量机和人工神经网络相比,栈式降噪自编码的F值分别提高了4.450%、10.032%和8.140%,实验结果验证了该方法的有效性及栈式降噪自编码在任务中具备挖掘高层面鲁棒性语义特征的优势。

关 键 词:维吾尔语  零指代消解  栈式降噪自编码  词嵌入表示  

Zero Pronoun Resolution of Uyghur Based on Stacked Denoising Autoencoder and Word Embedding
QIN Yue,YU Long,TIAN Shengwei,FENG Guanjun,
Turgun Ibrahim,Askar Hamdulla,ZHAO Jianguo.Zero Pronoun Resolution of Uyghur Based on Stacked Denoising Autoencoder and Word Embedding[J].Journal of Chinese Information Processing,2018,32(5):56-64.
Authors:QIN Yue  YU Long  TIAN Shengwei  FENG Guanjun  
Turgun Ibrahim
  Askar Hamdulla  ZHAO Jianguo
Affiliation:1.School of Information Science and Engineering, Xinjiang University, Urumqi, Xingjiang 830046, China;
2.Network Center, Xinjiang University, Urumqi, Xingjiang 830046, China;
3.School of Software, Xinjiang University, Urumqi, Xingjiang 830008, China;
4.School of Humanities, Xinjiang University, Urumqi, Xingjiang 830046, China
Abstract:Adopting deep learning mechanism, this paper apply Stacked Denoising Autoencoder (SDAE) to deal with Uyghur zero pronoun anaphora phenomenon. Firstly, word embedding trained on large-scale unlabeled Uyghur corpus is used as semantic features of candidate antecedents and zero pronouns. Secondly, according to Uyghur characteristics, we extract 14 hand-crafted features for zero pronoun resolution. Experimental results show that, compared to SAE(Stacked Autoencoder), SVM and ANN, the F value of SDAE is increased by 4.450%, 10.032% and8.140%, respectively.
Keywords:Uyghur  zero pronoun resolution  stacked denoising autoencoder  word embedding  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号