首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
话题演化用于自动分析话题变化趋势,具有较高的应用和研究价值。ILDA(Infinite Latent Dirichlet Allocation)模型在LDA(Latent Dirichlet Allocation)模型的基础上增加了狄利克雷过程,除了能获取隐变量,更重要的是能完成超参的动态更新和主题数的变动。而已有的话题演化研究中,话题的主题数需要事先指定且无法变动,基于ILDA模型的方法则可以针对性地解决该问题。构建的话题演化分析系统可实现如下功能:各周期内按不同主题分类、相邻周期间的主题进行关联、按时间顺序计算子话题强度。实验显示,基于ILDA模型的参数动态更新符合实际需求,话题演化分析过程完善可行。  相似文献   

2.
为了解决传统的文本主题模型对微博主题挖掘准确率低及不考虑主题之间关联的问题,针对中文微博语料本身的特点,分析LDA和HMM模型优缺点,提出了微博主题挖掘模型MB-HL(Microblog-Hidden Markov Model Latent Dirichlet Allocation)。该模型用逐条微博作为处理单元,建立分布主题-词语矩阵并进行优化,通过LDA模型对微博用户不同的行为建模并提取特征,利用HMM模型强大的时序状态建模能力弥补LDA在主题相关性上的不足,采用Gibbs采样进行推理求解。在真实的新浪微博数据上对比实验表明MB-HL模型能提高近9%主题关键词的准确度,并能有效地发现主题之间的关联关系。  相似文献   

3.
近年来,以微博为代表的社交媒体在情感分析中备受关注。然而,绝大多数现有的主题情感模型并没有充分考虑到用户性格特征,导致情感分析结果难尽人意。故该文在现有的JST模型基础上进行改进,提出一种基于时间的性格建模方法,将用户性格特征纳入主题情感模型中;鉴于微博数据包含大量的表情符号之类的特有信息,为了充分利用表情符号来提升微博情感识别性能,该文将情感符号融入JST模型中,进而提出了一种改进的主题情感联合模型UC-JST(Joint Sentiment/Topic Model Based on User Character)。通过在真实的新浪微博数据集上进行实验,结果表明UC-JST情感分类效果优于JST、TUS-LDA、JUST、TSMMF四种典型的无监督情感分类方法。  相似文献   

4.
微博情感分析是社交媒体挖掘中的重要任务之一,在个性化推荐、舆情分析等方面具有重要的理论和应用价值.挖掘性能良好且可同步进行文档主题分析与情感分析的主题情感模型近来在以微博为代表的社交媒体情感分析中备受关注。然而,绝大多数现有主题情感模型都简单地假设不同微博的情感极性是互相独立,这与微博生态的现实状况不相一致的,从而导致这些模型无法对用户的真实情感进行有效建模。基于此,本文综合考虑了微博用户相互关联的事实,提出基于LDA和微博用户关系的主题情感模型SRTSM,该模型在LDA中加入情感层与微博用户关系参数,利用微博用户关系与微博主题学习微博的情感极性。新浪微博真实数据集上的大量实验表明,与代表性算法JST、Sentiment-LDA与DPLDA相比较,SRTSM模型能对用户真实情感与讨论主题进行更加有效的分析建模.  相似文献   

5.
针对互联网出现的评论文本情感分析,引入潜在狄利克雷分布(Latent Dirichlet allocation,LDA)模型,提出一种分类方法。该分类方法结合情感词典,依据指定的情感单元搭配模式,提取情感信息,包括情感词和上、下文。使用主题模型发掘情感信息中的关键特征,并融入到情感向量空间中。最后利用机器学习分类算法,实现中文评论文本的情感分类。实验结果表明,提出的方法有效降低了特征向量的维度,并且在文本情感分类上有很好的效果。  相似文献   

6.
中文微博情感分析可以发现公众对热点事件的态度掌握网络舆情,因此成为文本挖掘的一个热点研究。采用一种基于Spark并行化的深度置信网络的情感分类方法,该方法利用Word2Vec工具表示微博文本和建立情感词典;使用深度置信网络构建微博情感分类模型;通过Spark集群对深度置信神经网络进行并行化处理。实验结果表明,基于深度置信网络的微博情感分类模型在Spark平台下并行化,训练时间大幅缩短,情感分类的准确率比传统的浅层学习方法高5%。  相似文献   

7.
《计算机工程》2018,(2):1-8
领域微博中包含较多的专业领域信息,并且随时间表现出较强的演化性。为分析领域的主题演化情况,构建一个基于分层Dirichlet过程(HDP)的DM-HDP模型。以用户为单位抽取领域相关的微博,利用微博的领域特征和时间特征,提取领域相关带有明显时间特征的微博并自动挖掘其主题分布,最终构建领域主题演化分析过程。实验结果表明,基于DM-HDP模型的分析方法能够表现领域微博主题的演化过程,与基于LDA和HDP模型的方法相比,在内容困惑度和模型复杂度等方面均具有明显优势。  相似文献   

8.
针对网络短文本存在大量的噪声和缺乏上下文信息的问题,提出一种基于BERT和超图对偶注意力机制的文本情感分析模型。首先利用BERT预训练模型强大的表征学习能力,对情感文本进行动态特征提取;同时挖掘文本的上下文顺序信息、主题信息和语义依存信息将其建模成超图,通过对偶图注意力机制来对以上关联信息进行聚合;最终将BERT和超图对偶注意力网络两个模块提取出的特征进行拼接,经过softmax层得到对文本情感倾向的预测结果。该模型在电商评论二分类数据集和微博文本六分类数据集上的准确率分别达到95.49%和79.83%,相较于基准模型分别提高2.27%~3.45%和6.97%~11.69%;同时还设计了消融实验验证模型各部分对分类结果的增益。实验结果表明,该模型能够显著提高针对中文网络短文本情感分析的准确率。  相似文献   

9.
为提高微博情感分类识别的正确率,以网络微博数据作为研究对象,提出一种基于图的情感基准词选择方法。结合知网相似度知识,构建图模型,以图中节点中介性的值为依据,选择出高质量和高覆盖率的情感基准词。根据得到的基准词构建情感分析中所需的情感词典,并给出情感词极性。同时将情感词应用于挖掘短句情感特征,加入到传统支持向量机(SVM)模型中,对微博句子挖掘更多的语义信息从而获取更合理的语义合成函数,捕捉句子情感变化以更好地把握微博整句情感。采用具有特征约束特性的条件随机场(CRF)模型对短句进行分类。实验结果验证了CRF模型短句分类的有效性,与多种特征的SVM分类方法相比,在不同数据集上具有更好的分类效果。  相似文献   

10.
滕飞  郑超美  李文 《计算机应用》2016,36(8):2252-2256
针对中文微博全局性情感倾向分类的准确性不高的问题,提出基于长短期记忆模型的多维主题模型(MT-LSTM)。该模型是一个多层多维序列计算模型,由多维长短期记忆(LSTM)细胞网络组成,适用于处理向量、数组以及更高维度的数据。该模型首先将微博语句分为多个层次进行分析,纵向以三维长短期记忆模型(3D-LSTM)处理词语及义群的情感倾向,横向以多维长短期记忆模型(MD-LSTM)多次处理整条微博的情感倾向;然后根据主题标签的高斯分布判断情感倾向;最后将几次判断结果进行加权得到最终的分类结果。实验结果表明,该算法平均查准率达91%,最高可达96.5%;中性微博查全率高达50%以上。与递归神经网络(RNN)模型相比,该算法F-测量值提升40%以上;与无主题划分的方法相比,细致的主题划分可将F-测量值提升11.9%。所提算法具有较好的综合性能,能够有效提升中文微博情感倾向分析的准确性,同时减少训练数据量,降低匹配计算的复杂度。  相似文献   

11.
针对传统主题模型忽略了微博短文本和文本动态演化的问题,提出了基于微博文本的词对主题演化(BToT)模型,并根据所提模型对数据集进行主题演化分析。BToT模型在文本生成过程中引入连续的时间变量具体描述时间维度上的主题动态演化,同时在文档中构成主题共享的“词对”结构,扩充了短文本特征。采用Gibbs采样方法对BToT参数进行估计,根据获得的主题-时间分布参数对主题进行演化分析。在真实微博数据集上进行验证,结果表明,BToT模型可以描述微博数据集中潜在的主题演化规律,获得的困惑度评价系数低于潜在狄利克雷分配(LDA)、词对主题模型(BTM)和主题演化模型(ToT)。  相似文献   

12.
传统情感模型在分析商品评论中的用户情感时面临两个主要问题:1)缺乏针对产品属性的细粒度情感分析;2)自动提取的产品属性其数量须提前确定。针对上述问题,提出了一种细粒度的面向产品属性的用户情感模型(USM)。首先,利用分层狄利克雷过程(HDP)将名词实体聚类形成产品属性并自动获取其数量;然后,结合产品属性中名词实体的权重和评价短语以及情感词典作为先验,利用潜在狄利克雷分布(LDA)对产品属性进行情感分类。实验结果表明,该模型具有较高的情感分类准确率,情感分类平均准确率达87%。该模型与传统的情感模型相比在抽取产品属性和评价短语的情感分类上具有较高的准确率。  相似文献   

13.
现有的主题情感联合(JST)模型能够同时识别文本中的主题和情感,但是现有的JST模型主要是对文本内容建模,没有考虑用户特征,导致情感分析结果出现用户人口统计偏差和行为事件偏差。提出了考虑用户特征的主题情感联合(JUST)模型,JUST模型的主要改进之处在于,将用户特征加入模型,以文档所对应的用户特征的线性函数作为文档-情感分布的先验,由此得到具有不同特征的用户群体的情感倾向。在汽车之家网站(www.autohome.com.cn)的13252条汽车评论数据集上,检验了JUST模型的有效性,实验结果表明,加入用户特征的JUST模型情感分类效果优于JST模型和TSMMF模型,同时比较了汽车之家网站上不同特征用户之间的关注主题情感差异。  相似文献   

14.
产品或服务的情感主题分析,有利于用户从海量的评论集中快速地了解到自己关注产品或服务的主题情感信息。针对现存非监督情感分析模型情感主题发现性能不足的问题,提出了一种的基于主题种子词的情感分析方法,该方法在自动构建领域主题种子词及主题文本基础上,利用主题种子词监督的情感分析模型(SAA_SSW)实现主题及其关联情感的联合发现。实验结果表明,相比传统的情感/主题联合模型(JST)和主题情感统一模型(ASUM),SAA_SSW能够识别出相同的词在不同的主题下具有的情感标签,挖掘的情感词与主题之间的相关度更高;另外,基于不同情感字典进行分类精度分析,SAA_SSW的分类精度相对于这两种模型至少提高7.5%。所以,SAA_SSW模型能很好地完成情感主题的发现,以及具有较高的情感分类精度。  相似文献   

15.
基于特定领域的中文微博热点话题挖掘系统BTopicMiner   总被引:1,自引:0,他引:1  
李劲  张华  吴浩雄  向军 《计算机应用》2012,32(8):2346-2349
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。  相似文献   

16.
主题情感混合模型可以同时提取语料的主题信息和情感倾向。针对短文本特征稀疏的问题,主题情感联合分析方法较少的问题,该文提出了BJSTM模型(Biterm Joint Sentiment Topic Model),在BTM模型(Biterm Topic Model)的基础上,增加情感层的设置,从而形成“情感-主题-词汇”的三层贝叶斯模型。对每个双词的情感和主题进行采样,从而对整个语料的词共现关系建模,一定程度上克服了短文本的稀疏性。实验表明,BJSTM模型在无监督情感分类和主题提取方面都有不错的表现。  相似文献   

17.
王臻皇  陈思明  袁晓如 《软件学报》2018,29(4):1115-1130
随着微博的发展,其影响力日益增大,对微博主题内容进行分析具有重要的价值.主题模型技术能够从文本数据中提取主题,但是,由于微博文本短、随意性大、信息量小等特点,微博主题的分析具有一定的难度.提出了一个微博主题可视分析系统,利用多种互相关联的视图与丰富的交互手段,支持用户对主题模型结果进行分析与探索.系统结合了微博数据的特点,引入微博用户与时间因素,支持分析者从多角度对微博主题进行全面分析.系统支持用户在主题可视分析的基础上,通过交互操作对主题进行编辑,从而改进主题模型,提高模型的准确性和可靠性.案例分析结果表明,提出的系统可以有效地帮助用户分析微博主题和修正主题.  相似文献   

18.
传统的微博广告过滤方法忽略了微博广告文本的数据稀疏性、语义信息和广告背景领域特征等因素的影响。针对这些问题,提出一种基于隐含狄列克雷分配(LDA)分类特征扩展的广告过滤方法。首先,将微博分为正常微博和广告型微博,并分别构建LDA主题模型预测短文本对应的主题分布,将主题中的词作为特征扩展的基础;其次,在特征扩展时结合文本类别信息提取背景领域特征,以降低其对文本分类的影响;最后,将扩展后的特征向量作为分类器的输入,根据支持向量机(SVM)的分类结果过滤广告。实验结果表明,与现有的仅基于短文本分类的过滤方法相比,其准确率平均提升4个百分点。因此,该方法能有效扩展文本特征,并降低背景领域特征的影响,更适用于数据量较大的微博广告过滤。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号