首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 109 毫秒
1.
张冬雯  杨鹏飞  许云峰 《计算机科学》2016,43(Z6):418-421, 447
利用有监督的机器学习的方法来对中文产品评论文本进行情感分类,该方法结合了word2vec和SVMperf两种工具。先由word2vec训练出语料中每个词语的词向量,通过计算相互之间的余弦距离来达到相似概念词语聚类的目的,通过相似特征聚类将高相似度领域词汇扩充到情感词典;再使用word2vec训练出词向量的高维度表示;然后采用主成分分析方法(PCA)对高维度向量进行降低维度处理,形成特征向量;最后使用两种方法抽取有效的情感特征,由SVMperf进行训练和预测,从而完成文本的情感分类。实验结果表明,采用相似概念聚类方法对词典进行扩充任务或情感分类任务都可以获得很好的效果。  相似文献   

2.
针对社交网络文本传统情感分类模型存在先验知识依赖以及语义理解不足的问题,提出一种基于word2vec和双向长短时记忆循环神经网络的情感分类模型—WEEF-BILSTM。采用基于CBOW(continuous bag-of-words)方式的word2vec模型针对语料训练词向量,减小词向量间的稀疏度,通过双向LSTM神经网络获取更为完整的文本上下文信息从而提取出深度词向量特征,继而使用one-versus-one SVM对其进行情感分类。实验结果表明,提出的WEEF-BILSTM模型较其他模型分类效果更好,能达到更优的准确率和◢F◣值。  相似文献   

3.
基于Word2Vec的一种文档向量表示   总被引:2,自引:0,他引:2  
唐明  朱磊  邹显春 《计算机科学》2016,43(6):214-217, 269
在文本分类中,如何运用word2vec词向量高效地表达一篇文档一直是一个难点。目前,将word2vec模型与聚类算法结合形成的doc2vec模型能有效地表达文档信息。但是,这种方法很少考虑单个词对整篇文档的影响力。为了解决这个问题,利用TF-IDF算法计算每篇文档中词的权重,并结合word2vec词向量生成文档向量,最后将其应用于中文文档分类。在搜狗中文语料库上的实验验证了新方法的有效性。  相似文献   

4.
随着近些年深度学习的兴起,词语在计算机中的表示有了重大突破;而长期以来关键词提取算法均以词语作为特征进行计算,效果并不理想。因此,本文提出了一种基于深度学习工具word2vec的关键词提取算法。该算法首先使用word2vec将所有词语映射到一个更抽象的词向量空间中;然后基于词向量计算词语之间的相似度,最终通过词语聚类得到文章关键词。实验表明该算法对于篇幅长文章的关键词提取的准确率要明显高于其他算法。  相似文献   

5.
句子语义相似度的研究在自然语言处理等领域发挥着重要的作用.针对现有汉语句子相似度研究中存在的语义特征难以分析以及语序影响的问题,提出了一种基于DTW和匈牙利算法相结合的语义句子相似度处理模型.模型首先使用Word2vec深度学习模型训练百度新闻语料,得到200维的包含语义特征的词向量词典,并建立词向量空间,根据词向量组...  相似文献   

6.
王伟  赵尔平  崔志远  孙浩 《计算机应用》2021,41(8):2193-2198
针对目前词向量表示低频词质量差,表示的语义信息容易混淆,以及现有的消歧模型对多义词不能准确区分等问题,提出一种基于词向量融合表示的多特征融合消歧方法。该方法将使用知网(HowNet)义原表示的词向量与Word2vec生成的词向量进行融合来补全词的多义信息以及提高低频词的表示质量。首先计算待消歧实体与候选实体的余弦相似度来获得二者的相似度;其次使用聚类算法和知网知识库来获取实体类别特征相似度;然后利用改进的潜在狄利克雷分布(LDA)主题模型来抽取主题关键词以计算实体主题特征相似度,最后通过加权融合以上三类特征相似度实现多义词词义消歧。在西藏畜牧业领域测试集上进行的实验结果表明,所提方法的准确率(90.1%)比典型的图模型消歧方法提高了7.6个百分点。  相似文献   

7.
针对互联网中在线招聘的工作广告,建立准确的薪水预测模型有助于求职者选择合适的职位。目前的研究方法都是通过词频或词向量平均化计算来获取职位的文本描述信息特征,无法全面理解文本语义。针对上述问题,本文利用文本深度表示模型Doc2vec计算文本的特征向量,能更深入地表征出文本语义特征。实验结果表明,与TF-IDF和word2vec相比,使用Doc2vec提取文本特征在对薪水进行预测的效果更好。  相似文献   

8.
基于内容的推荐在用户数据较少的情况下是一种有效的解决冷启动的方法。针对基于内容的推荐算法中,内容相似度计算精度低、用户兴趣漂移等问题,提出一种结合影评内容相似度和长短期兴趣模型来计算电影相似度的推荐方法。算法利用text-rank、word2vec等技术和模型对影评进行关键词抽取和词向量构建,同时基于word2vec训练结果进行电影内容相似度计算,一定程度上解决了近义词、网络词等带来的准确率下降问题;然后基于长短期兴趣漂移模型,统计用户对不同内容属性的偏好权重,并随时间窗口动态计算电影相似度矩阵,缓解了用户兴趣随时间漂移而改的问题;最后根据不同推荐策略获得推荐结果。实验结果证明,该算法比对比方法正确率提高了5%左右,同时兴趣模型提取了用户长短期兴趣标签,在工业界及基于标签的算法等场景中都具有很高的实用价值。  相似文献   

9.
在传统的文本分类中,文本向量空间矩阵存在“维数灾难”和极度稀疏等问题,而提取与类别最相关的关键词作为文本分类的特征有助于解决以上两个问题。针对以上结论进行研究,提出了一种基于关键词相似度的短文本分类框架。该框架首先通过大量语料训练得到word2vec词向量模型;然后通过TextRank获得每一类文本的关键词,在关键词集合中进行去重操作作为特征集合。对于任意特征,通过词向量模型计算短文本中每个词与该特征的相似度,选择最大相似度作为该特征的权重。最后选择K近邻(KNN)和支持向量机(SVM)作为分类器训练算法。实验基于中文新闻标题数据集,与传统的短文本分类方法相比,分类效果约平均提升了6%,从而验证了该框架的有效性。  相似文献   

10.
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。  相似文献   

11.
自动问答系统问句相似度计算的准确率直接影响系统返回答案的准确率,对此提出一种基于Word2vec和句法规则的问句相似度计算方法。构造Text-CNN问句分类模型将问句进行分类,再构造Word2vec词向量模型将问句中词与词的空间向量相似度转换成语义相似度,并加入句法规则的分析。随机从搜狗公开问答数据集中抽取200条数据进行测试,结果表明,该方法与TF-IDF方法相比,自动问答系统返回答案的准确率和召回率分别提高了0.259和0.154。  相似文献   

12.
人机对话技术近年来受到学术界和工业界的广泛关注。人机对话系统的一个关键任务就是如何让聊天机器人理解用户的问句意图并将用户的输入正确地分类到相应领域中,其性能直接影响到特定领域的人机对话质量。该文针对对话问句具有句子长度短、局部特征明显等特点,单通道卷积神经网络(Convolutional Neural Network,CNN)视角单一,不能充分学习到问句的特征信息和语义信息。该文在研究和分析了CNN算法的基础上,提出了意图分类双通道卷积神经网(Intent Classification Dual-channel Convolutional Neural Networks,ICDCNN)算法。该方法首先采用Word2Vec工具和Embedding层进行训练词向量提取问句中的语义信息特征;然后采用两个不同的通道进行卷积运算,一个通道传入字级别的词向量,另一个通道传入词级别的词向量,使用细粒度的字级别词向量协助词级别的词向量捕获自然语言问句中更深层次的语义信息;最后通过设置不同尺寸的卷积核,学习问句内部更深层次的抽象特征。通过对比实验结果表明,该算法在选用的中文实验数据集上取得了较高的准确率,较其他算法具有一定的优势。  相似文献   

13.
当前大部分WordNet词语相似度计算方法由于未充分考虑词语的语义信息和位置关系,导致相似度的准确率降低.为解决上述问题,提出了一种使用词向量模型Word2Vec计算WordNet词语相似度的新方法.在构建WordNet数据集时提出一种新形式,不再使用传统的文本语料库,同时提出信息位置排列方法对数据集加以处理.利用Wo...  相似文献   

14.
李晓  解辉  李立杰 《计算机科学》2017,44(9):256-260
word2vec利用深度学习的思想,可以从大规模的文本数据中自动学习数据的本质信息。因此,借助哈尔滨工业大学的LTP平台,设计利用word2vec模型将对句子的处理简化为向量空间中的向量运算,采用向量空间上的相似度表示句子语义上的相似度。此外,将句子的结构信息添加到句子相似度计算中,并就特殊句式对算法进行了改进,同时考虑到了词汇之间的句法关系。实验结果表明,该方法更准确地揭示了句子之间的语义关系,句法结构的提取和算法的改进解决了复杂句式的相似度计算问题,提高了相似度计算的准确率。  相似文献   

15.
在搜索引擎、问答系统中利用深度学习的方法计算问题相似度是NLP领域研究的热点。结合卷积神经网络(CNN)和长短记忆网络(LSTM),提出了递归卷积神经网络(RCNN)问句相似度的计算方法,首先利用双向递归神经网络提取上下文信息,然后采用1D卷积神经网络将词嵌入信息与上下文信息进行融合;再利用全局最大池化提取关键信息来完成问句的语义表示;最后通过匹配层判断问句对的相似度。在Quora Question Pairs数据集上的实验结果表明,该相似度计算方法准确率为83.57%,优于其他方法。  相似文献   

16.
问答系统中问题模式分类与相似度计算方法   总被引:1,自引:0,他引:1  
基于FAQ库的限定域自动问答系统由于更具实用性而成为自然语言处理领域的研究热点,而问题之间的相似度计算是其中最关键的技术。现有的问句相似度计算技术在处理带有上下文情景描述的问题时效果较差。针对现有技术存在的问题,提出将用户问题分为简洁模式问题(SMQs)和情景模式问题(CMQs),并提出了基于规则的问题模式分类算法。在此基础上,进一步提出了综合考察情景相似度和问句相似度的情景模式问题(CMQs)相似度计算方法。实验结果表明,问题模式分类算法取得了90%以上的准确率和召回率,情景模式问题相似度计算方法在时间复杂度较低的情况下也取得了74.3%的正确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号