首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 78 毫秒
1.
GloVe模型是一种广泛使用的词向量表示学习的模型.许多研究发现,学习得到的词向量维数越大,性能越好;但维数越大,模型学习耗时越长.事实上,GloVe模型中,耗时主要表现在两方面,一是统计词对共现矩阵,二是训练学习词向量表示.该文在利用GloVe模型统计语料中词对共现时,基于对称或非对称窗口得到两个共现矩阵,然后分别学...  相似文献   

2.
为更具体表义社会新词的情感含义及其倾向性,该文提出了一种基于词向量的新词情感倾向性分析方法.在信息时代不断发展变化中,由于语言应用场景不断发展变化以及扩展语义表达的丰富性,网络上不断出现很多表达情感的新词,但是这些新词的表达虽有丰富的含义但缺乏准确的定义,因此对其情感倾向性分析具有一定困难.该文在分析了新词发现方法和词向量训练工具Word2Vec的基础上,研究了基于Word2Vec的情感词新词倾向性分析方法的可行性和架构设计,并面向微博语料进行实验,结果显示新词可以从与其相近的词中分析其情感倾向.  相似文献   

3.
现有音乐推荐系统在大规模隐式反馈场景下存在推荐困难的问题,提出大规模隐式反馈的词向量音乐推荐模型(Word-Embedding Based Implicit Music Recommender).本模型借鉴了自然语言处理领域的Word2Vec技术,通过学习用户音乐收藏播放记录里的歌曲共现信息,获得用户、音乐在分布式空间的低维、紧致的向量表示,从而得到用户、音乐之间的相似度进行推荐,并且在理论上论述了Word2Vec技术应用在推荐系统上的正确性.该模型在保证准确率和召回率几乎不变的同时,收敛速度快,占用内存小,试验结果表明该模型有效的解决了大规模隐性反馈场景下音乐推荐困难的问题.  相似文献   

4.
针对Word2Vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与Word2Vec模型相结合,提出Word2Vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical Softmax的Word2Vec模型训练出词向量矩阵即权重矩阵;然后将共现矩阵进行归一化处理得到平均上下文词向量,再将词向量组成平均上下文词向量矩阵;最后将平均上下文词向量矩阵与权重矩阵相乘得到词向量矩阵。为了能同时解决集外词及多义性问题,将平均上下文词向量分为全局平均上下文词向量(Global ACV)和局部平均上下文词向量(Local ACV)两种,并对两者取权值组成新的平均上下文词向量矩阵。将Word2Vec-ACV模型和Word2Vec模型分别进行类比任务实验和命名实体识别任务实验,实验结果表明,Word2Vec-ACV模型同时解决了语境多义性以及创建集外词词向量的问题,降低了时间消耗,提升了词向量表达的准确性和对海量词汇的处理能力。  相似文献   

5.
针对词向量文本分类模型记忆能力弱,缺少全局词特征信息等问题,提出基于宽度和词向量特征的文本分类模型(WideText):首先对文本进行清洗、分词、词元编码和定义词典等,计算全局词元的词频-逆文档频度(TFIDF)指标并将每条文本向量化,将输入文本中的词通过编码映射到词嵌入矩阵中,词向量特征经嵌入和平均叠加后,和基于TF-IDF的文本向量特征进行拼接,传入到输出层后计算属于每个分类的概率.该模型在低维词向量的基础上结合了文本向量特征的表达能力,具有良好的泛化和记忆能力.实验结果表明,在引入宽度特征后,WideText分类性能不仅较词向量文本分类模型有明显提升,且略优于前馈神经网络分类器.  相似文献   

6.
针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示方法.应用数据集训练Word2Vec模型,计算数据集中词语的贡献度,同时设置贡献度阈值,提取贡献度大于该阈值的单词构建单词集合.在此基础上,寻找文档与集合中共同存在的单词,获取其词向量并融合单...  相似文献   

7.
8.
Word2vec是一种基于简单神经网络的自然语言处理方法,是一种词嵌入技术,可用于构建高维词向量。研究针对Word2vec词向量表示方法进行模型构建和分析,通过NLPCC2014语料训练,将词映射到高维词向量空间中,完成了Word2vec的功能实现以及可视化输出。实验中进一步针对CBOW模型与Skip-gram模型,这两种Word2vec中的重要模型进行对比研究,输出结果表明:在通过大语料训练中文词向量时,Skip-gram模型在新词识别上具有明显优势,综合模型准确性与时间性能来说,总体可靠性更优。  相似文献   

9.
在信息推荐系统中,传统的方法是通过对内容、行为去预测用户的兴趣点来实现信息推送。国内外研究实验结果表明,这种模型推荐性能较为显著,说明用户行为和内容是相关的。根据相关性的对称原理,文章提出了基于用户行为的Word2Vec协同推荐算法,通过神经网络模型来隐式地抽取商品和用户的相互关系并进行向量化表示,能够更好地计算商品和用户间的相似性,以达到提升模型的推荐效果和泛化能力。  相似文献   

10.
11.
当前大部分WordNet词语相似度计算方法由于未充分考虑词语的语义信息和位置关系,导致相似度的准确率降低.为解决上述问题,提出了一种使用词向量模型Word2Vec计算WordNet词语相似度的新方法.在构建WordNet数据集时提出一种新形式,不再使用传统的文本语料库,同时提出信息位置排列方法对数据集加以处理.利用Wo...  相似文献   

12.
安全生产事故的分析对应急管理能力提升具有重要意义.通过对安全生产案例的语义分析,利用Word2Vec词嵌入技术和聚类模型,选用CBOW+负采样技术实现词向量,并结合安全生产事故案例分类的数据特点,通过基于半监督学习的聚类模型算法,根据事故性质的认定特点,提出了一种优化初始聚类中心的算法,并利用K-means聚类算法实现安全事故文本案例的分类.实验表明该方法较好实现安全生产的事故案例分类,并对安全生产事故的多个维度分析具有很好借鉴意义.  相似文献   

13.
为了提高新闻话题聚类精度,论文提出一种基于Word2Vec的改进密度峰值聚类算法。首先基于Word2Vec提出一种新闻文本的向量表示方法,然后针对密度峰值聚类算法存在的问题,提出一种基于KNN改进的密度峰值聚类算法。该算法首先基于KNN计算样本的局部密度,然后通过最小二乘法线性拟合选取初始聚类中心并对剩余样本进行指派形成聚类结果。在搜狐新闻数据集上的实验结果验证了该算法的有效性。  相似文献   

14.
该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,而改进的语言模型通过文本关键词建立了词本身与整个文本之间的联系,在词向量训练结果的查准率和相似度方面,改进模型训练出的词向量较skip-gram、CBOW语言模型有一个小幅度的提升。通过基于维基百科1.5GB中文语料的词向量训练实验对比后发现,使用CBOW-TFIDF模型训练出的词向量在相似词测试任务中结果最佳;把改进的词向量应用到情感倾向性分析任务中,正向评价的精确率和F1值分别提高了4.79%、4.92%,因此基于统计语言模型改进的词向量,对于情感倾向性分析等以词向量为基础的应用研究工作有较为重要的实践意义。  相似文献   

15.
以微博为代表的社交平台是信息时代人们必不可少的交流工具.挖掘微博文本数据中的信息对自动问答、舆情分析等应用研究都具有重要意义.短文本数据的分类研究是短文本数据挖掘的基础.基于神经网络的Word2vec模型能很好的解决传统的文本分类方法无法解决的高维稀疏和语义鸿沟的问题.本文首先基于Word2vec模型得到词向量,然后将类别因素引入传统权重计算方法TF-IDF (Term Frequency-Inverse Document Frequency)设计词向量权重,进而用加权求和的方法得到短文本向量,最后用SVM分类器对短文本做分类训练并且通过微博数据实验验证了该方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号