首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
陈杰  陈彩  梁毅 《计算机系统应用》2017,26(11):159-164
文档的特征提取和文档的向量表示是文档分类中的关键,本文针对这两个关键点提出一种基于word2vec的文档分类方法.该方法根据DF采集特征词袋,以尽可能的保留文档集中的重要特征词,并且利用word2vec的潜在语义分析特性,将语义相关的特征词用一个主题词乘以合适的系数来代替,有效地浓缩了特征词袋,降低了文档向量的维度;该方法还结合了TF-IDF算法,对特征词进行加权,给每个特征词赋予更合适的权重.本文与另外两种文档分类方法进行了对比实验,实验结果表明,本文提出的基于word2vec的文档分类方法在分类效果上较其他两种方法均有所提高.  相似文献   

2.
张冬雯  杨鹏飞  许云峰 《计算机科学》2016,43(Z6):418-421, 447
利用有监督的机器学习的方法来对中文产品评论文本进行情感分类,该方法结合了word2vec和SVMperf两种工具。先由word2vec训练出语料中每个词语的词向量,通过计算相互之间的余弦距离来达到相似概念词语聚类的目的,通过相似特征聚类将高相似度领域词汇扩充到情感词典;再使用word2vec训练出词向量的高维度表示;然后采用主成分分析方法(PCA)对高维度向量进行降低维度处理,形成特征向量;最后使用两种方法抽取有效的情感特征,由SVMperf进行训练和预测,从而完成文本的情感分类。实验结果表明,采用相似概念聚类方法对词典进行扩充任务或情感分类任务都可以获得很好的效果。  相似文献   

3.
随着近些年深度学习的兴起,词语在计算机中的表示有了重大突破;而长期以来关键词提取算法均以词语作为特征进行计算,效果并不理想。因此,本文提出了一种基于深度学习工具word2vec的关键词提取算法。该算法首先使用word2vec将所有词语映射到一个更抽象的词向量空间中;然后基于词向量计算词语之间的相似度,最终通过词语聚类得到文章关键词。实验表明该算法对于篇幅长文章的关键词提取的准确率要明显高于其他算法。  相似文献   

4.
针对游戏客服场景中玩家领域化、口语化的提问方式,应用深度学习工具word2vec建立带有语义的词的向量表示,设计了一种利用词向量距离,结合同义词替换、权重、句子长度、词序等因素的句子相似度计算模型。在该模型基础上,通过预分类、重定义分类规则,对KNN分类算法的大类占优、全局匹配计算代价高等问题进行改进,实现了一种基于文本分类的面向游戏客服场景的自动问答系统。实验结果表明,该系统具有较高的问题分类准确率和分类效率。  相似文献   

5.
朴素贝叶斯分类器基于样本各属性相互条件独立的假设前提,它作为一种简单的词袋模型,忽略了上下文语境下同义词对分类的影响。本文提出相似词概念,使用相似词词簇代替传统的特征词典参与训练。首先训练word2vec得到词向量。然后,将特征词典用词向量表示后层次聚类,构建相似词词簇,并对其扩展。实验结果表明,改进后算法有效提高了文本分类的准确度,避免了因分类训练语料的差异导致分类效果的不稳定。  相似文献   

6.
用户移动上网访问基站的轨迹数据从时间和空间上反映了用户的生活习惯和行为模式。时间和空间信息同时产生不应分别考虑。因此,该文在传统的TF-IDF方法基础上提出了与时间相关的TFT-IDFT方法,用以提取轨迹点语义信息,进而采用word2vec方法将轨迹数据转化为文档分析。提取包含位置信息和语义信息的轨迹时空词向量,在此基础上建立多分类模型对用户所属年龄段进行识别。实验结果表明,改进的TFT-IDFT方法在提取轨迹语义时更具合理性,且基于此方法构建的轨迹时空词向量应用于分类模型,对用户所属年龄阶段的识别效果更好。  相似文献   

7.
医疗问句具有关键词少、主题不明确等特点,导致构造的问句特征词向量维数过大、数据稀疏,影响问句分类的准确性。为了解决此问题,本文提出基于维基百科和深度学习相结合的词向量特征扩展模型,在Word2vec基础上引入维基百科语义相似度ESA算法扩展特征词向量,使得医疗问句分类更加准确。实验数据表明,采用Word2vec与维基百科相融合方法效果好,其准确性、召回率、平衡值分别达到0.912、0.924、0.918,优于传统的词袋模型和Word2vec直接词向量构造方法。  相似文献   

8.
分析和研究文本读者情绪有助于发现互联网的负面信息,是舆情监控的重要组成部分。考虑到引起读者不同情绪主要因素在于文本的语义内容,如何抽取文本语义特征因此成为一个重要问题。针对这一问题,提出首先使用word2vec模型对文本进行初始的语义表达;在此基础上结合各个情绪类别分别构建有代表性的语义词簇,进而采用一定准则筛选对类别判断有效的词簇,从而将传统的文本词向量表达改进为语义词簇上的向量表达;最后使用多标签分类方法进行情绪标签的学习和分类。实验结果表明,该方法相对于现有的代表性方法来说能够获得更好的精度和稳定性。  相似文献   

9.
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。  相似文献   

10.
针对基于传统LDA主题模型的标签生成算法对用户兴趣主题描述不完整的问题,提出一种基于主题嵌入表示的微博用户标签生成算法TopicERP.该算法在LDA模型的基础上,通过引入Word2vec词嵌入模型,对用户兴趣主题进行全面描述,并对匹配度计算方法进行改进.首先利用LDA主题模型对用户微博进行主题分析,生成用户兴趣主题;然后利用Word2vec词嵌入模型将主题文本转换为主题向量,用于匹配度计算;最后,利用余弦相似度和主题在文档中的条件概率,计算主题向量与候选标签匹配度,选取Top-Q的候选标签作为目标用户标签.本文在公开微博数据集microPCU上进行实验,实验结果表明,该算法在总体性能上高于基于传统LDA主题模型的微博标签生成算法,生成的用户标签能够较为准确地描述用户的兴趣偏好.  相似文献   

11.
针对miRNA-疾病关联研究中信息使用不充分、过于依赖网络中节点的相似度信息以及预测准确度较低的问题,提出一种基于网络表示学习的miRNA-疾病关联预测方法(network representation learning miRNA-disease association,NRLMDA)。该方法通过引入长链非编码RNA(lncRNA)构造出miRNA-lncRNA-疾病异构网络,丰富原有网络的生物学信息;采用网络表征学习node2vec算法在上述提出的异构网络中以一定的游走策略获得节点的近邻序列,并通过skip-gram模型进行深度学习,从而获得节点的低维特征向量;最后基于miRNA-miRNA相似性的关联规则推断方法预测miRNA与疾病的关联。该方法能够挖掘出全局网络的拓扑结构特征,并且不需要负样本。NRLMDA在留一交叉验证和五折交叉验证以及进一步的案例研究上的实验结果优于经典方法。  相似文献   

12.
基于时空数据的用户社交联系强度研究   总被引:1,自引:0,他引:1  
陈元娟  严建峰  刘晓升  杨璐 《计算机科学》2016,43(1):251-254, 274
word2vec是Google推出的一款将词表征为实数值的高效开源工具。采用该工具将时空数据中的每位用户表征为一个实数值向量并预测用户间社交联系的强度。提出了在word2vec学习过程中动态调整学习率的算法——Location-weight算法,根据不同位置的不同用户数目在学习过程中加入位置权重,并探索其对用户社交联系强度预测的影响。实验结果表明,加入位置权重的学习算法提高了用户社交联系强度预测的准确性。  相似文献   

13.
目前,对情感分类常用的特征抽取方法是基于词典的向量空间模型(VSM),潜在的语义分析(LSA)和基于无监督算法的词嵌入(word2vec),和随机词向量法,这些方法都是对单个词语进行处理。本文通过哈工大词云对采集的豆瓣评论数据集进行语义角色进行的标记以后,采用了改进的隐马尔科夫模型(MHMM)对词对向量进行特征构建,并将其作为一个序列片段作为长短记忆门(LSTM)的输入,最后使用softmax函数对动态循环神经网络输出的序列进行分类,本次实验使用了交叉熵作为优化函数,采用了随机梯度下降法对优化函数进行迭代产生最优解,实验结果证明了该方法对豆瓣影评数据进行情感分类产生了更好的效果。  相似文献   

14.
传统的用户属性推断方法主要基于机器学习及统计学习,其推断方法忽略了用户的整体表征及任务之间的相关性。本文提出一种基于多任务融合模型的用户属性推断方法,利用doc2vec独特的结构特性,加入文档向量以实现用户整体表征,避免人工提取特征的局限性。为实现用户多属性推断任务,本文提出基于关联学习的多任务融合推断框架,即在分别识别用户多个属性基础上赋予单用户多属性表征,在增强用户整体表征能力的同时,建立多个属性间的关联关系,提高单任务学习的区分度;然后采用模型融合技术,完成属性间关联学习,提高学习准确率及模型泛化能力,同时使用尽可能少的模型进行融合,提高模型运行效率。经实验比对,本文在多个数据集上的实验结果较其他算法有一定优势。  相似文献   

15.
针对互联网中在线招聘的工作广告,建立准确的薪水预测模型有助于求职者选择合适的职位。目前的研究方法都是通过词频或词向量平均化计算来获取职位的文本描述信息特征,无法全面理解文本语义。针对上述问题,本文利用文本深度表示模型Doc2vec计算文本的特征向量,能更深入地表征出文本语义特征。实验结果表明,与TF-IDF和word2vec相比,使用Doc2vec提取文本特征在对薪水进行预测的效果更好。  相似文献   

16.
话题演进分析主要是挖掘话题内容随着时间流的演进情况。话题的内容可用关键词来表示。利用word2vec对75万篇新闻和微博文本进行训练,得到词向量模型。将文本流处理后输入模型,获得时间序列下所有词汇的词向量,利用K-means对词向量进行聚类,从而实现话题关键词的抽取。实验对比了基于PLSA和LDA主题模型下的话题抽取效果,发现本文的话题分析效果优于主题模型的方法。同时,采集足够大量、内容足够丰富的语料,可训练得到泛化能力比较强的模型,有利于实时话题演进分析研究工作。  相似文献   

17.
在人工智能火热的今天,智能解题逐渐成为一大研究热点。研究基于知识关联和推理的选择类问题求解,尝试解决问题理解和相似问题发现两方面内容。针对问题理解,使用TextRank和词性标注两种方法完成关键信息提取,并使用word2vec词聚类的结果完成关键信息扩展;针对相似问题发现,首先根据问题理解生成的关键信息,从已有题库中抽取候选问题集,然后结合word2vec生成的词向量分别使用基于BM25变体、词项向量加权、改进的编辑距离三种方法计算句子相似度,并根据相似度大小,确定答案选择,最终完成问题求解。在地理选择题解答的相关实验中,获得了最高75.88%的平均准确率,也验证了问题求解的可行性。  相似文献   

18.
黄仁  张卫 《计算机科学》2016,43(Z6):387-389
在电子商务蓬勃发展的网络环境下,产品的评论数据已成为企业提高商品质量和提升服务的重要数据源。这些评论中包含用户对产品各个方面的情感倾向,对其进行情感分析可以帮助商家了解产品的优缺点,也能为潜在消费者的购买决策提供数据支持。提出了基于组合神经网络的商品属性聚类及基于word2vec的商品评论情感分析新方法,通过word2vec计算语义相似度,建立情感词典,用构建的情感词典对测试文本进行情感分类。实验验证了该方法在互联网商品评论中的有效性和准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号