首页 | 本学科首页   官方微博 | 高级检索  
     

多原型词向量与文本主题联合学习模型
引用本文:曹中华,夏家莉,彭文忠,张志斌.多原型词向量与文本主题联合学习模型[J].中文信息学报,2020,34(3):64.
作者姓名:曹中华  夏家莉  彭文忠  张志斌
作者单位:1.江西财经大学 信息管理学院 财政大数据中心,江西 南昌 330032;
2.江西师范大学 软件学院,江西 南昌 330022
基金项目:国家自然科学基金(41661083)
摘    要:常见的词嵌入向量模型存在每个词只具有一个词向量的问题,词的主题值是重要的多义性条件,可以作为获得多原型词向量的附加信息。在skip-gram(cbow)模型和文本主题结构基础上,该文研究了两种改进的多原型词向量方法和基于词与主题的嵌入向量表示的文本生成结构。该模型通过联合训练,能同时获得文本主题、词和主题的嵌入向量,实现了使用词的主题信息获得多原型词向量,和使用词和主题的嵌入式向量学习文本主题。实验表明,该文提出的方法不仅能够获得具有上下文语义的多原型词向量,也可以获得关联性更强的文本主题。

关 键 词:多原型词向量  多义词  主题模型  神经网络  

A Joint Learning Model for Multi-prototype Word Embedding and Document Topics
CAO Zhonghua,XIA Jiali,PENG Wenzhong,ZHANG Zhibin.A Joint Learning Model for Multi-prototype Word Embedding and Document Topics[J].Journal of Chinese Information Processing,2020,34(3):64.
Authors:CAO Zhonghua  XIA Jiali  PENG Wenzhong  ZHANG Zhibin
Affiliation:1.School of Information Technology, Big Data Center of Finance, Jiangxi University of Finance and Economics, Nanchang, Jiangxi 330032, China;
2.School of Software, Jiangxi Normal University, Nanchang, Jiangxi 330022, China
Abstract:Most models of word embedding assign each word with only one vector representation. The polysemy word embedding can be improved through the external information such as the topics of words. Based on the original skip-gram (cbow) and topic model, this paper designs two representation methods of multi-prototype word embedding and one method of text generation via word embedding. The joint learning approach is employed to simultaneously generate the topic information, the word embedding and the topic embedding, leveraging the multi prototype word vector and the document topic for each other. Experiments show that the proposed method can obtain different semantic vector of polysemy words and more coherence topics.
Keywords:multi-prototype words embedding  polysemy words  topic model  neural network  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号