首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
针对基于传统LDA主题模型的标签生成算法对用户兴趣主题描述不完整的问题,提出一种基于主题嵌入表示的微博用户标签生成算法TopicERP.该算法在LDA模型的基础上,通过引入Word2vec词嵌入模型,对用户兴趣主题进行全面描述,并对匹配度计算方法进行改进.首先利用LDA主题模型对用户微博进行主题分析,生成用户兴趣主题;然后利用Word2vec词嵌入模型将主题文本转换为主题向量,用于匹配度计算;最后,利用余弦相似度和主题在文档中的条件概率,计算主题向量与候选标签匹配度,选取Top-Q的候选标签作为目标用户标签.本文在公开微博数据集microPCU上进行实验,实验结果表明,该算法在总体性能上高于基于传统LDA主题模型的微博标签生成算法,生成的用户标签能够较为准确地描述用户的兴趣偏好.  相似文献   

2.
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。  相似文献   

3.
针对微博文本高维、稀疏的特点,比较基于同义词词林等外部知识库的文本扩展策略,利用Word2vec训练微博语料,并构建微博上下文相关词词表,通过种子词表和微博标签信息去扩展微博文本流中的关键词,最后提出了提取微博文本关键词及区分词向量中相似词和相关词的方法。实验结果证明,微博短文本经过Word2vec词向量相关词及微博标签扩展后,其聚类效果有了明显提高。  相似文献   

4.
《计算机工程》2017,(4):177-182
通过基于概率的主题挖掘模型隐含狄利克雷分布(LDA)挖掘用户兴趣主题,是目前最常用的用户兴趣主题挖掘方法。为进一步改善用户体验,推荐其感兴趣且质量好、新鲜度高的微博,提出一种新的多角度个性化微博推荐算法。通过微博发布时间、转发数、评论数等特征计算微博重要度,利用LDA模型生成的用户-主题矩阵以及主题-词汇矩阵计算用户对微博的兴趣度,综合考虑微博本身的重要度以及用户对微博的兴趣度对微博进行评分,根据评分结果推荐微博。实验结果表明,该算法与主题模型相结合可有效够提高微博推荐的精准度。  相似文献   

5.
《计算机工程》2017,(5):143-148
在Word2vec框架内,针对微博文本的特点,提出采用词向量或高维词库映射计算句向量的方法。以3种算法构造句向量,即采用Word2vec对微博文本进行扩展后以TF-IDF方法表示句向量;将句子中每个词的词向量相加形成句向量;构建高维词库,将句子中的每个词映射到高维词库形成句向量。对比3种训练句向量的方法,选出最适合微博领域的模型。实验结果表明,采用高维词库映射的方法对微博的句向量计算的效果最佳。  相似文献   

6.
王伟  赵尔平  崔志远  孙浩 《计算机应用》2021,41(8):2193-2198
针对目前词向量表示低频词质量差,表示的语义信息容易混淆,以及现有的消歧模型对多义词不能准确区分等问题,提出一种基于词向量融合表示的多特征融合消歧方法。该方法将使用知网(HowNet)义原表示的词向量与Word2vec生成的词向量进行融合来补全词的多义信息以及提高低频词的表示质量。首先计算待消歧实体与候选实体的余弦相似度来获得二者的相似度;其次使用聚类算法和知网知识库来获取实体类别特征相似度;然后利用改进的潜在狄利克雷分布(LDA)主题模型来抽取主题关键词以计算实体主题特征相似度,最后通过加权融合以上三类特征相似度实现多义词词义消歧。在西藏畜牧业领域测试集上进行的实验结果表明,所提方法的准确率(90.1%)比典型的图模型消歧方法提高了7.6个百分点。  相似文献   

7.
《计算机工程》2017,(12):184-191
词嵌入技术能从大语料库中捕获词语的语义信息,将其与概率主题模型结合可解决标准主题模型缺乏语义信息的问题。为此,同时对词嵌入和主题模型进行改进,构建词-主题混合模型。在主题词嵌入(TWE)模型中引入外部语料库获得初始主题和单词表示,通过定义主题向量和词嵌入的条件概率分布,将词嵌入特征表示和主题向量集成到主题模型中,同时最小化新词-主题分布函数和原始词-主题分布函数的KL散度。实验结果表明,与Word2vec、TWE、LDA和LFLDA模型相比,该模型在词表示和主题检测方面性能更好。  相似文献   

8.
潜在狄利克雷分配(LDA)主题模型可用于识别大规模文档集中潜藏的主题信息,但是对于微博短文本的应用效果并不理想。为此,提出一种基于LDA的微博用户模型,将微博基于用户进行划分,合并每个用户发布的微博以代表用户,标准的文档-主题-词的三层LDA模型变为用户-主题-词的用户模型,利用该模型进行用户推荐。在真实微博数据集上的实验结果表明,与传统的向量空间模型方法相比,采用该方法进行用户推荐具有更好的效果,在选择合适的主题数情况下,其准确率提高近10%。  相似文献   

9.
基于内容的推荐在用户数据较少的情况下是一种有效的解决冷启动的方法。针对基于内容的推荐算法中,内容相似度计算精度低、用户兴趣漂移等问题,提出一种结合影评内容相似度和长短期兴趣模型来计算电影相似度的推荐方法。算法利用text-rank、word2vec等技术和模型对影评进行关键词抽取和词向量构建,同时基于word2vec训练结果进行电影内容相似度计算,一定程度上解决了近义词、网络词等带来的准确率下降问题;然后基于长短期兴趣漂移模型,统计用户对不同内容属性的偏好权重,并随时间窗口动态计算电影相似度矩阵,缓解了用户兴趣随时间漂移而改的问题;最后根据不同推荐策略获得推荐结果。实验结果证明,该算法比对比方法正确率提高了5%左右,同时兴趣模型提取了用户长短期兴趣标签,在工业界及基于标签的算法等场景中都具有很高的实用价值。  相似文献   

10.
针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型--主题句向量模型(Doc2vec-LDA,Doc-LDA),该模型通过将LDA主题模型(Latent Dirichlet Allocation)和句向量模型融合(Doc2vec),不仅使得在模型训练过程中既能利用整个语料库的信息,而且还利用Paragraph Vector的局部语义空间信息完善LDA的隐性语义信息。实验采用爬取到的知网摘要文本作为数据集,选用[K]-Means聚类算法对各模型的摘要文本进行效果比较。实验结果表明,基于Doc-LDA模型的聚类效果优于LDA、Word2vec、LDA+Word2vec模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号