首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 78 毫秒
1.
针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型--主题句向量模型(Doc2vec-LDA,Doc-LDA),该模型通过将LDA主题模型(Latent Dirichlet Allocation)和句向量模型融合(Doc2vec),不仅使得在模型训练过程中既能利用整个语料库的信息,而且还利用Paragraph Vector的局部语义空间信息完善LDA的隐性语义信息。实验采用爬取到的知网摘要文本作为数据集,选用[K]-Means聚类算法对各模型的摘要文本进行效果比较。实验结果表明,基于Doc-LDA模型的聚类效果优于LDA、Word2vec、LDA+Word2vec模型。  相似文献   

2.
针对中文主观题自动评分准确率低的问题,提出一种基于doc2vec算法的主观题自动评分方法。利用doc2vec算法计算出参考答案文本和考生答案文本的文本向量,计算出两文本向量之间的相似度,然后根据相似度计算考生得分。将主观题试题作为实验数据集,用doc2vec算法进行评分,并采用方差及偏差率作为衡量标准,对基于doc2vec算法的评分结果进行验证,并与基于TextRank算法的主观题自动评分结果及人工评分进行对比,实验表明基于doc2vec算法的评分结果的方差及偏差率都较小,稳定性较好,为后期研究主观题评分有一定的参考意义。  相似文献   

3.
Disease prediction based on electronic medical record generally predicts the disease according to the patient's symptoms, and rarely studies on the time sequence relationship between the diseases. A new representation of electronic medical record is introduced, which considers the context-aware information of medical diseases with time series. Each disease is transformed into a digital vector similar to its "semantics" using Doc2Vec. Based on these vectors, the BiLSTM model is used to predict the potential diseases of elderly patients, which can play an early warning role in diseases of the elderly. Finally, real hospital diagnostic data is used in the experiments, and the results show that the model can effectively predict new diseases of the elderly, and it also has certain stability while ensuring the accuracy of prediction.  相似文献   

4.
直播系统中用户聊天内容的实时拦截具有非常重大的意义,为了提高分类的准确率和效率,提出了一种基于Doc2Vec与SVM结合的文本分类模型对聊天内容分类,判断聊天内容是否应该被拦截.首先使用Doc2Vec模型将聊天内容表示成密集数值向量的形式,第二部分使用SVM分类器进行分类.通过实验表明,该模型有效地减少了文本表示的维度,提高了训练效率,而且具有的97%的准确率和89.82%召回率,性能优于朴素贝叶斯和基于Doc2Vec的Logistic模型.  相似文献   

5.
张冬雯  杨鹏飞  许云峰 《计算机科学》2016,43(Z6):418-421, 447
利用有监督的机器学习的方法来对中文产品评论文本进行情感分类,该方法结合了word2vec和SVMperf两种工具。先由word2vec训练出语料中每个词语的词向量,通过计算相互之间的余弦距离来达到相似概念词语聚类的目的,通过相似特征聚类将高相似度领域词汇扩充到情感词典;再使用word2vec训练出词向量的高维度表示;然后采用主成分分析方法(PCA)对高维度向量进行降低维度处理,形成特征向量;最后使用两种方法抽取有效的情感特征,由SVMperf进行训练和预测,从而完成文本的情感分类。实验结果表明,采用相似概念聚类方法对词典进行扩充任务或情感分类任务都可以获得很好的效果。  相似文献   

6.
针对文本聚类时文本特征维度高,忽略文档词排列顺序和语义等问题,提出了一种基于句向量(Doc2vec)和卷积神经网络(convolutional neural networks,CNN)的文本特征提取方法用于文本聚类。首先利用Doc2vec模型把训练数据集中的文本转换成句向量,充分考虑文档词排列顺序和语义;然后利用CNN提取文本的深层语义特征,解决特征维度高的问题,得到能够用于聚类的文本特征向量;最后使用k-means算法进行聚类。实验结果表明,在爬取的搜狗新闻数据上,该文本聚类模型的准确率达到了0.776,F值指标达到了0.780,相比其他文本聚类模型均有所提高。  相似文献   

7.
随着电子商务的发展,网上购物已经逐渐成为我们生活中不可缺少的一部分,随之而产生的大量评价也成为商家改善服务的重要指标之一.论文提出基于Word2vec、改进TF-IDF和LSTM三者结合的物流评价模型,利用Word2vec模型训练得到所有词向量,结合改进TF-IDF对词向量进行加权,使用LSTM模型对物流评价进行最终的...  相似文献   

8.
旨在解决在词类标注样本稀缺的环境下,通过某种算法来给词类进行关键词扩充,应用场景是互联网社交平台需要根据话题组即词类,进行广告推送,而词类扩充相关词能达到广告推送量大,而且精准的效果.实验中前后使用了两种算法进行研究,一种是类似于Google的Page rank找到相关词进行扩充,这是运用比较广泛的算法;另一种是提出的与结合TFIDF的word2vec计算词间相关性的算法.给出了对比数据,word2vec能较好地实现词类扩充的需求.  相似文献   

9.
随着近些年深度学习的兴起,词语在计算机中的表示有了重大突破;而长期以来关键词提取算法均以词语作为特征进行计算,效果并不理想。因此,本文提出了一种基于深度学习工具word2vec的关键词提取算法。该算法首先使用word2vec将所有词语映射到一个更抽象的词向量空间中;然后基于词向量计算词语之间的相似度,最终通过词语聚类得到文章关键词。实验表明该算法对于篇幅长文章的关键词提取的准确率要明显高于其他算法。  相似文献   

10.
11.
基于Word2Vec的一种文档向量表示   总被引:2,自引:0,他引:2  
唐明  朱磊  邹显春 《计算机科学》2016,43(6):214-217, 269
在文本分类中,如何运用word2vec词向量高效地表达一篇文档一直是一个难点。目前,将word2vec模型与聚类算法结合形成的doc2vec模型能有效地表达文档信息。但是,这种方法很少考虑单个词对整篇文档的影响力。为了解决这个问题,利用TF-IDF算法计算每篇文档中词的权重,并结合word2vec词向量生成文档向量,最后将其应用于中文文档分类。在搜狗中文语料库上的实验验证了新方法的有效性。  相似文献   

12.
陈杰  陈彩  梁毅 《计算机系统应用》2017,26(11):159-164
文档的特征提取和文档的向量表示是文档分类中的关键,本文针对这两个关键点提出一种基于word2vec的文档分类方法.该方法根据DF采集特征词袋,以尽可能的保留文档集中的重要特征词,并且利用word2vec的潜在语义分析特性,将语义相关的特征词用一个主题词乘以合适的系数来代替,有效地浓缩了特征词袋,降低了文档向量的维度;该方法还结合了TF-IDF算法,对特征词进行加权,给每个特征词赋予更合适的权重.本文与另外两种文档分类方法进行了对比实验,实验结果表明,本文提出的基于word2vec的文档分类方法在分类效果上较其他两种方法均有所提高.  相似文献   

13.
黄仁  张卫 《计算机科学》2016,43(Z6):387-389
在电子商务蓬勃发展的网络环境下,产品的评论数据已成为企业提高商品质量和提升服务的重要数据源。这些评论中包含用户对产品各个方面的情感倾向,对其进行情感分析可以帮助商家了解产品的优缺点,也能为潜在消费者的购买决策提供数据支持。提出了基于组合神经网络的商品属性聚类及基于word2vec的商品评论情感分析新方法,通过word2vec计算语义相似度,建立情感词典,用构建的情感词典对测试文本进行情感分类。实验验证了该方法在互联网商品评论中的有效性和准确性。  相似文献   

14.
李晓  解辉  李立杰 《计算机科学》2017,44(9):256-260
word2vec利用深度学习的思想,可以从大规模的文本数据中自动学习数据的本质信息。因此,借助哈尔滨工业大学的LTP平台,设计利用word2vec模型将对句子的处理简化为向量空间中的向量运算,采用向量空间上的相似度表示句子语义上的相似度。此外,将句子的结构信息添加到句子相似度计算中,并就特殊句式对算法进行了改进,同时考虑到了词汇之间的句法关系。实验结果表明,该方法更准确地揭示了句子之间的语义关系,句法结构的提取和算法的改进解决了复杂句式的相似度计算问题,提高了相似度计算的准确率。  相似文献   

15.
网格计算中的资源是动态和异构的,常规的静态作业调度方法不适宜网格计算环境,对于网格计算中一类并行计算的有效执行有赖于网格资源(CPU和网络带宽等)与作业的有效匹配。提出了一种基于资源预测结果对作业进行调度的策略,首先阐述了网格主机负载预测的研究成果——IAR模型,并提出了一种预测网络带宽的工具——网络性能平面,利用资源预测结果构造了一种反馈作业调度模型并对一类基于时间平衡的作业进行实验。结果表明,该模型在与其他诸多方法比较中,取得了执行时间较短和稳定性较好的效果。  相似文献   

16.
随着企业管理信息化、透明化和Internet应用的普及,基于Web的应用系统也得到了人们的亲睐。通过Web应用,工资管理系统的开发,人们可更好的共享资源和实时的查看自己的工资情况。对信息的获取不再受时间和地点的限制,也能实时的反馈自己的意见,这样对于管理员来说也就极大地降低了工作量,使工资管理更加科学化,业务操作更加透明。该系统的开发主要包括前端的有关应用程序的开发以及后台的数据库的建立、维护两个方面的内容,系统的建立和维护主要要求其管理数据的系统性、规范性、自动性等特点,而前台的应用程序开发则要求做到各项功能完备、操作简便、易学易用。综合上述要求,首先分析了企业工资管理系统的应用现状,阐述了工资管理系统的开发目的。系统开发工具的选择确定了系统的开发平台.然后给出了系统的详细设计和数据库设计。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号