首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
现有的主题情感联合(JST)模型能够同时识别文本中的主题和情感,但是现有的JST模型主要是对文本内容建模,没有考虑用户特征,导致情感分析结果出现用户人口统计偏差和行为事件偏差。提出了考虑用户特征的主题情感联合(JUST)模型,JUST模型的主要改进之处在于,将用户特征加入模型,以文档所对应的用户特征的线性函数作为文档-情感分布的先验,由此得到具有不同特征的用户群体的情感倾向。在汽车之家网站(www.autohome.com.cn)的13252条汽车评论数据集上,检验了JUST模型的有效性,实验结果表明,加入用户特征的JUST模型情感分类效果优于JST模型和TSMMF模型,同时比较了汽车之家网站上不同特征用户之间的关注主题情感差异。  相似文献   

2.
陈铭夏 《软件》2013,(12):163-166
当今的社交网络拥有庞大的用户数量和随之而来的海量信息,可以为工业界各个领域的研究提供重要的数据补充。其中,如何高效准确地对网络人群进行按照兴趣领域的划分成为了研究的热点。本文通过引入文本分析中常用的LDA模型,挖掘出微博用户和其单向关注的其他用户之间暗含的兴趣信息,建立主题模型来给用户进行粗粒度划分。同时本文研究了引入非对称超参数、弱连接理论、TF-IDF调频以优化本算法划分的正交度,并给出了相应分析。  相似文献   

3.
针对基于词向量的神经网络模型在产品属性情感分析中效果不佳的问题,提出一种集成离散特征和词向量特征的开关递归神经网络模型。首先,通过直接循环图为语句建模,采用开关递归神经网络模型完成产品属性情感分析任务;然后,在开关递归神经网络模型中集成离散特征和词向量特征;最后,分别在流水线、联合、折叠三种任务模型中完成属性提取和情感分析任务。以宏观F1分数作为评估指标,在SemEval-2014的笔记本电脑和餐馆评论数据集上做实验。开关递归神经网络模型的F1分数为:48.21%和62.19%,超过普通递归神经网络模型近1.5个百分点,因而开关递归神经网络能够有效捕获复杂特征,提升产品属性情感分析的效果。而集成离散特征和词向量特征的神经网络模型的F1分数为:49.26%和63.31%,均超过基线结果0.5到1个百分点,表明离散特征和词向量特征互相促进,另一方面,也表明仅仅基于词向量的神经网络模型仍有提升空间。三种任务模型中,流水线模型的F1分数最高,表明应将属性提取和情感分析任务分开完成。  相似文献   

4.
针对当前方法难以获取评论文本全局情感倾向性的问题,提出一种基于潜在狄利克雷分布(LDA)模型的多文档情感摘要方法。该方法首先对给定的句子进行情感分析,抽取带有主观性评价的句子;然后,应用LDA模型表示已抽取的句子,并通过词汇的重要度和句子的特征计算句子的权重;最终提取情感文摘。实验结果表明,该方法能够有效地识别情感关键句,在准确率、召回率和F值上均有不错的效果。  相似文献   

5.
分层分布式狄利克雷分布(HD-LDA)算法是一个对潜在狄利克雷分布(LDA)进行改进的基于概率增长模型的文本分类算法,与只能在单机上运行的LDA算法相比,可以运行在分布式框架下,进行分布式并行处理。Mahout在Hadoop框架下实现了HD-LDA算法,但是因为单节点算法的计算量大,仍然存在对大数据分类运行时间太长的问题。而大规模文本集合分散到多个节点上迭代推导,单个节点上文档集合的推导仍是顺序进行的,所以处理大规模文本集合时仍然需要很长时间才能完成全部文本的分类。为此,提出将Hadoop与图形处理器(GPU)相结合,将单节点文本集合的推导过程转移到GPU上运行,实现单节点多个文档并行推导,利用多台并行的GPU对HD-LDA算法进行加速。应用结果表明,使用该方法能使分布式框架下的HD-LDA算法对大规模文本集合处理达到7倍的加速比。  相似文献   

6.
文本分割在文本摘要、信息检索等诸多领域都有重要的应用。主题模型是该领域研究中的重要方法,但目前基于主题模型的方法普遍依赖于主题个数的人工设置。针对此问题,本文提出了一种基于分层狄利克雷过程(Hierarchical Dirichlet process,HDP)模型的文本分割方法。首先使用HDP模型获取文本在主题空间的向量表示,然后将主题向量用于C99分割算法实现文本分割,最后使用两种优化策略对结果进行优化。实验结果表明,基于HDP模型的方法能够摆脱对人工设置主题个数的依赖,有效提高了文本分割的性能。  相似文献   

7.
杜慧  陈云芳  张伟 《计算机科学》2017,44(Z6):29-32, 47
主题模型利用快速的机器学习算法从高维稀疏的单词数据中提取出低维的主题表示,实现了对文档单词的聚类。对主题模型中的参数进行估计是该领域的一项重要研究工作。详细描述了概率潜在语义分析模型和潜在狄利克雷模型以及主题模型中基本的参数估计方法,并对模型的困惑度进行了实验比较。  相似文献   

8.
如何从海量、嘈杂的微博文本流中及时发现负面情感突发话题对于突发事件的应急响应和处置至关重要,而传统的突发话题检测方法往往忽略了负面情感突发话题与非负面情感突发话题之间的区别,为此提出了一种面向微博文本流的负面情感突发话题检测(NE-BTD)算法。首先,将微博中的主题词对的加速度和负面情感强度变化率作为负面情感突发话题的判定依据;然后,利用突发词对的速度确定负面情感突发话题的窗口范围;最后,使用一种基于吉布斯采样的狄利克雷多项式混合模型(GSDMM)聚类算法得到窗口中负面情感突发话题的主题结构。在实验中将所提出的NE-BTD算法与已有的一种基于情感方法的话题检测(EBM-TD)算法进行对比,结果表明所提出的NE-BTD算法相较EBM-TD算法准确率和召回率至少提高了20%,并且可以至少提前40 min检出负面情感突发话题。  相似文献   

9.
为解决在社交网络平台中的用户内容个性化推荐问题,提出一种微博用户兴趣转移模型。用户的不同兴趣在其生活以及社交网络平台中的内容所占比例趋于稳定,且在社交网络平台中用户下一时刻的内容受到用户当前内容的影响。提出基于LDA(潜在狄利克雷分布)主题模型推断用户主题分布、确定用户兴趣,在新浪微博系统上,基于马尔科夫模型的状态转移原理构造用户兴趣的转移模型,挖掘用户兴趣之间的转移概率,实现对用户微博内容进行预测。在真实数据集上验证了该模型的合理性和有效性,其推荐准确率达到78%。  相似文献   

10.
如何从海量、嘈杂的微博文本流中及时发现负面情感突发话题对于突发事件的应急响应和处置至关重要,而传统的突发话题检测方法往往忽略了负面情感突发话题与非负面情感突发话题之间的区别,为此提出了一种面向微博文本流的负面情感突发话题检测(NE-BTD)算法。首先,将微博中的主题词对的加速度和负面情感强度变化率作为负面情感突发话题的判定依据;然后,利用突发词对的速度确定负面情感突发话题的窗口范围;最后,使用一种基于吉布斯采样的狄利克雷多项式混合模型(GSDMM)聚类算法得到窗口中负面情感突发话题的主题结构。在实验中将所提出的NE-BTD算法与已有的一种基于情感方法的话题检测(EBM-TD)算法进行对比,结果表明所提出的NE-BTD算法相较EBM-TD算法准确率和召回率至少提高了20%,并且可以至少提前40 min检出负面情感突发话题。  相似文献   

11.
针对现有模型无法进行微博主题情感演化分析的问题,提出一种基于主题情感混合模型(TSCM)和情感周期性理论的主题情感演化模型——动态主题情感混合模型(DTSCM)。DTSCM通过捕获不同时间片中微博消息集的主题和情感,追踪不同时间片内主题与情感的变化趋势,获得主题情感演化图,从而实现主题和情感的演化分析。真实微博数据集上的实验结果表明,与当前优秀代表算法JST(Joint Sentiment/Topic)、S-LDA(Sentiment-Latent Dirichlet Allocation)和DPLDA(Dependency Phrases-Latent Dirichlet Allocation)相比,该方法的情感分类准确率分别提高了3.01%、4.33%和8.75%,并且可以获得主题情感演化图。这表明该方法具有更高的情感分类准确率并且可以进行微博主题情感演化分析,为舆情分析等应用提供了较好的帮助。  相似文献   

12.
为解决互信息(MI)在特征选取中的类别缺失和倾向低频词问题,提出 LDA-σ方法。该方法使用潜在狄利克雷分配模型(LDA)提取潜在主题,以“词—主题”间互信息的标准差作为特征评估函数。在Reuters-21578语料集上提取特征词并进行分类,LDA-σ方法的微平均F1最高达0.9096;宏平均F1优于其他算法,最高达0.7823。实验表明,LDA-σ方法可用于文本特征选取。  相似文献   

13.
使用主题模型对文本建模,提取文本的隐含主题,进而进行词性标注和文本分类等工作,是机器学习和文本挖掘领域的研究热点。提出一个基于LDA的主题模型,它基于“段袋“假设--文本中的段落具有相同的主题,且连续的段落更倾向于具有相同的主题。对于文章的段落,采用条件随机场(CRF)模型划分并判断它们是否具有相同主题。实验表明,新模型相比LDA模型能更好得提取主题并具有更低的困惑度,同时,能够较好地进行词性标注和文本分类工作。  相似文献   

14.
刘丽  王永恒  韦航 《计算机应用》2015,35(12):3481-3486
针对传统粗粒度情感分析忽略具体评价对象,以及现有细粒度情感分析方法忽略无关评价要素的问题,提出结合条件随机场(CRF)和语法树剪枝的方法对产品评论进行细粒度情感分析。采用基于MapReduce的并行化协同训练(Tri-training)的方法对语料进行半自主标注,利用融合多种语言特征的条件随机场模型,获取评论中的评价对象和正负面评价词。通过建立领域本体和句法路径库实现语法树剪枝,对含有多个评价对象和评价词的文本,去掉无关评价对象的干扰,抽取出正确的评价单元,最后形成可视化产品报告。实验结果显示,提出的方法在两种不同领域数据集上,识别情感要素的综合准确率达89%左右,情感评价单元的综合准确率也达89%左右。实验结果表明,与传统方法相比,结合CRF和语法树剪枝的方法识别准确率更高,性能更好。  相似文献   

15.
苏莹  张勇  胡珀  涂新辉 《计算机应用》2016,36(6):1613-1618
针对情感分析需要大量人工标注语料的难点,提出了一种面向无指导情感分析的层次性生成模型。该模型将朴素贝叶斯(NB)模型和潜在狄利克雷分布(LDA)相结合,仅仅需要合适的情感词典,不需要篇章级别和句子级别的标注信息即可同时对网络评论的篇章级别和句子级别的情感倾向进行分析。该模型假设每个句子而不是每个单词拥有一个潜在的情感变量;然后,该情感变量再以朴素贝叶斯的方式生成一系列独立的特征。在该模型中,朴素贝叶斯假设的引入使得该模型可以结合自然语言处理(NLP)相关的技术,例如依存分析、句法分析等,用以提高无指导情感分析的性能。在两个情感语料数据集上的实验结果显示,该模型能够自动推导出篇章级别和句子级别的情感极性,该模型的正确率显著优于其他无指导的方法,甚至接近部分半指导或有指导的研究方法。  相似文献   

16.
在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。在面向Web的主题句抽取的具体应用中,取得了较好的效果。  相似文献   

17.
现有的图像分层表示方法严格局限于前馈型方式,不能较好地解决局部模糊性等问题。基于此,文中提出一种学习和推断层次结构所有分层的概率模型,它考虑递归的概率分解过程,通过推导得到金字塔式多层结构的潜在Dirichlet分布的衍生模型。该模型存在两个重要特性:增加表示层可提高平面模型的性能;采用全Bayesian概率方法优于其前馈型实现形式。在标准识别数据集上的实验结果表明,与现有的分层表示方法相比,该模型表现出较好性能。  相似文献   

18.
针对马尔可夫链蒙特卡罗方法普遍存在的迭代收敛性问题,在具有空间平滑约束的高斯混合模型条件上提出改进空间约束贝叶斯网络模型并在图像分割领域进行具体应用。所提模型应用隐狄利克雷分布(LDA)概率密度模型和高斯-马尔可夫定理的随机域参数混合过程来实现参数平滑。所提方法根据空间信息先验平滑变换操作,在待处理像素点的上下文混合结构中引入LDA符合多项式分布,用来替换传统期望最大化算法中映射操作。LDA参数采用闭合形式将有利于准确估计最大后验概率(MAP)框架与上下文混合结构的相关比例。实验结果表明,应用PRI、VoI、GCE和BDE指标进行效果比较,该方法比联合系统工程组(JSEG)、当前变换矩阵(CTM)和最大后验概率-最大似然法(MM)方法的图像分割应用效果较好,高斯噪声对于该算法的鲁棒性影响较小。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号