基于多源信息融合的分布式词表示学习 Distributed Word Embedding via Multi-Source Information Fusion期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于多源信息融合的分布式词表示学习

引用本文：	冶忠林,赵海兴,张科,朱宇.基于多源信息融合的分布式词表示学习[J].中文信息学报,2019,33(10):18-30.

作者姓名：	冶忠林赵海兴张科朱宇

作者单位：	1.青海师范大学计算机学院,青海西宁 810008; 2.陕西师范大学计算机科学学院,陕西西安 710062; 3.青海省藏文信息处理与机器翻译重点实验室,青海西宁 810008; 4.藏文信息处理教育部重点实验室,青海西宁 810008

基金项目：	国家自然科学基金(11661069,61763041,61663041);长江学者和创新研究团队项目(IRT_15R40);中央高校基本科研业务费专项资金(2017TS045);青海省藏文信息处理与机器翻译重点实验室项目(2013-Z-Y17)

摘要：	分布式词表示学习旨在用神经网络框架训练得到低维、压缩、稠密的词语表示向量。然而,这类基于神经网络的词表示模型有以下不足: (1) 罕见词由于缺乏充分上下文训练数据,训练所得的罕见词向量表示不能充分地反映其在语料中的语义信息; (2) 中心词语的反义词出现于上下文时,会使意义完全相反的词却赋予更近的空间向量表示; (3) 互为同义词的词语均未出现于对方的上下文中,致使该类同义词学习得到的表示在向量空间中距离较远。基于以上三点,该文提出了一种基于多源信息融合的分布式词表示学习算法(MSWE),主要做了4个方面的改进: (1) 通过显式地构建词语的上下文特征矩阵,保留了罕见词及其上下文词语在语言训练模型中的共现信息可以较准确地反映出词语结构所投影出的结构语义关联; (2) 通过词语的描述或解释文本,构建词语的属性语义特征矩阵,可有效地弥补因为上下文结构特征稀疏而导致的训练不充分; (3) 通过使用同义词与反义词信息,构建了词语的同义词与反义词特征矩阵,使得同义词在词向量空间中具有较近的空间距离,而反义词则在词向量空间中具有较远的空间距离; (4) 通过诱导矩阵补全算法融合多源特征矩阵,训练得到词语低维度的表示向量。实验结果表明,该文提出的MSWE算法能够有效地从多源词语特征矩阵中学习到有效的特征因子,在6个词语相似度评测数据集上表现出了优异的性能。
关键词：	词表示学习词表示词嵌入词向量词特征学习
Distributed Word Embedding via Multi-Source Information Fusion

YE Zhonglin,ZHAO Haixing,ZHANG Ke,ZHU Yu.Distributed Word Embedding via Multi-Source Information Fusion[J].Journal of Chinese Information Processing,2019,33(10):18-30.

Authors:	YE Zhonglin ZHAO Haixing ZHANG Ke ZHU Yu

Affiliation:	1.College of Computer, Qinghai Normal University, Xining, Qinghai 810008, China; 2.College of Computer Science, Shaanxi Normal University, Xi'an, Shaanxi 710062, China; 3.Provincial Key Laboratory of Tibetan Information Processing and Machine Translation, Xining, Qinghai 810008, China; 4.Key Laboratory of Tibetan Information Processing, Ministry of Education, Xining, Qinghai 810008, China

Abstract:

Keywords:	word representation learning word representation word embedding word vector word feature learning

	点击此处可从《中文信息学报》浏览原始摘要信息
	点击此处可从《中文信息学报》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏