首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
网络新媒体的快速发展,使得网上评论数据呈现爆炸性增长,面对数量庞大的网络文本,使用传统的人工方式来提取观点会导致效率低下、分类界限模糊、领域适应性差等问题。为解决以上问题,在对传统LDA模型进行改进的基础上,提出了一个基于领域判别的LDA主题模型来对在线评论进行观点挖掘。首先,在标准LDA模型中引入领域层,对语料库中的文档采样领域标签,利用领域化的参数来求解LDA模型;其次,考虑到句子间的情感从属关系,在主题层和单词层之间加入情感层,并引入情感转移变量进行表示,提高了情感极性分析的精度,实验结果表明了本文所提模型和理论的有效性。  相似文献   

2.
随着网络购物的发展,Web上产生了大量的商品评论文本数据,其中蕴含着丰富的评价知识。如何从这些海量评论文本中有效提取商品特征和情感词,进而获取特征级别的情感倾向,是进行商品评论细粒度情感分析的关键。本文根据中文商品评论文本的特点,从句法分析、词义理解和语境相关等多角度获取词语间的语义关系,然后将其作为约束知识嵌入到主题模型,提出语义关系约束的主题模型SRC-LDA(semantic relation constrained LDA),用来实现语义指导下LDA的细粒度主题词提取。由于SRC-LDA改善了标准LDA对于主题词的语义理解和识别能力,从而提高了相同主题下主题词分配的关联度和不同主题下主题词分配的区分度,可以更多地发现细粒度特征词、情感词及其之间的语义关联性。通过实验表明,SRC-LDA对于细粒度特征和情感词的发现和提取具有较好的效果。  相似文献   

3.
传统的情感分析研究通过分析, 确定词语、句子或篇章的情感, 但忽略了情感表达的主题。针对这一不足, 该文提出了一种基于双层CRFs模型的细粒度意见挖掘中维吾尔语意见型文本陈述级情感分析方法。第一层模型识别意见型文本中的主题词和意见词, 确定意见陈述的范围, 并将识别结果传递给第二层模型, 将其作为重要特征之一, 用于陈述级情感分析。细粒度意见挖掘中情感分析的目标是构建<意见陈述, 主题词, 意见词, 情感>四元组。该方法用于维吾尔语陈述级情感分析的准确率为77.41%, 召回率为78.51%, 证明了该方法在细粒度意见挖掘中情感分析任务上的有效性。  相似文献   

4.
在新浪微博中,原创微博下存在着很多用户评论。这些评论能反映原创微博的内容,用户的态度以及与其相关的一些话题。因此,对这些评论进行细粒度信息的提取与褒贬态度的分类很有必要。基于上述原因,该文首先提出与原创无关的评论判别方法,通过三个相似度方法得到原创微博与评论之间的相关度,从而判断评论对象是否为原创微博。其次,提出一种用于评论集褒贬态度和方面观点挖掘的新模型,该模型在LDA中加入了表情符号层与文本情感层,实现评论集方面和褒贬态度的同步检测。实验表明: 表情符号情感层的融入能提高新模型褒贬态度识别能力。  相似文献   

5.
【目的】从主题表征词抽取和主题句功能分类两个维度,设计基于潜在狄利克雷分布模型(Latent Dirichlet Allocation,LDA)和语步标注的主题分析方法,并探究方法的有效性与实用性。【方法】采用LDA模型进行主题识别,利用Sentence Transformer模型对主题词短语进行提取,同时构建句子功能分类模型进行语步标注,识别文本句子功能类型,从句子功能维度对主题内容进行细粒度分析。【结果】以农业资源与环境领域论文数据为例进行实证研究,结果表明,相比传统LDA模型,经过提取主题词短语后,识别出的主题表征词可读性和解释性更强,进一步结合语步标注后,主题句子内容分析更为深入。【局限】主题短语表征词扩展内容存在含义相同问题,有待进一步改进表征词的多样性,以整合相同含义的主题短语表征词。【结论】本研究所提方法在主题表征词抽取、主题内容分析方面具有较好的效果,可以提高文本主题挖掘的效率与深度。  相似文献   

6.
针对电商平台提出一个基于评论的商品特征抽取及情感分析框架,并将该框架在京东生鲜类商品的评论中进行应用。实验结果表明该框架确实能够成功抽取出商品的典型特征及该特征对应的情感极性,且在小样本数据集上测试了特征词和观点词抽取算法以及情感极性计算方法的性能,其中显式<特征词,观点词>词对抽取的准确率达到了53.6%,召回率达到了81.5%,极性判断的准确率达到了98.3%。主要贡献包括:提出一种依据观点词与特征词关联度的隐含特征词映射方法;基于word2vec词向量模型计算特征词相似度,并利用改进的半监督层次聚类算法对特征词进行典型特征聚类,建立特征词关联表。  相似文献   

7.
微博情感分析是社交媒体挖掘中的重要任务之一,在个性化推荐、舆情分析等方面具有重要的理论和应用价值.挖掘性能良好且可同步进行文档主题分析与情感分析的主题情感模型近来在以微博为代表的社交媒体情感分析中备受关注。然而,绝大多数现有主题情感模型都简单地假设不同微博的情感极性是互相独立,这与微博生态的现实状况不相一致的,从而导致这些模型无法对用户的真实情感进行有效建模。基于此,本文综合考虑了微博用户相互关联的事实,提出基于LDA和微博用户关系的主题情感模型SRTSM,该模型在LDA中加入情感层与微博用户关系参数,利用微博用户关系与微博主题学习微博的情感极性。新浪微博真实数据集上的大量实验表明,与代表性算法JST、Sentiment-LDA与DPLDA相比较,SRTSM模型能对用户真实情感与讨论主题进行更加有效的分析建模.  相似文献   

8.
随着网络的发展,主题提取的应用越来越广泛,尤其是学术文献的主题提取。尽管学术文献摘要是短文本,但其具有高维性的特点导致文本主题模型难以处理,其时效性的特点致使主题挖掘时容易忽略时间因素,造成主题分布不均、不明确。针对此类问题,提出一种基于TTF-LDA(time+tf-idf+latent Dirichlet allocation)的学术文献摘要主题聚类模型。通过引入TF-IDF特征提取的方法,对摘要进行特征词的提取,能有效降低LDA模型的输入文本维度,融合学术文献的发表时间因素,建立时间窗口,限定学术文献主题分析的时间,并通过文献的发表时间增加特征词的时间权重,使用特征词的时间权重之和协同主题引导特征词词库作为LDA的影响因子。通过在爬虫爬取的数据集上进行实验,与标准的LDA和MVC-LDA相比,在选取相同的主题数的情况下,模型的混乱程度更低,主题与主题之间的区分度更高,更符合学术文献本身的特点。  相似文献   

9.
LDA作为文本主题识别领域中使用最广泛的模型之一,其基于词袋模型的假设简单化地赋予词汇相同的权重,使得主题分布易向高频词倾斜,影响了识别主题的语义连贯性。本文针对该问题提出一种基于图挖掘的LDA改进算法GoW-LDA,首先基于特征词对在文本中的共现先后关系构建语义图模型,然后利用网络统计特征中节点的加权度,将文本的语义结构特点和关联性以权重修正的形式融入LDA主题建模中。实验结果显示,GoW-LDA相较于传统LDA和基于TF-IDF的LDA,能够大幅降低主题模型的混淆度,提高主题识别的互信息指数,并且有效减少模型的训练时间,为文本主题识别提供了一种新的解决思路。  相似文献   

10.
通过优化Spark MLlib机器学习库中的隐含狄利克雷分布(LDA)主题模型,提出一种改进的学术研究热点挖掘方法。采用LDA主题模型对学术论文关键词进行建模,利用困惑度确定主题模型的最佳主题个数,并将文档-主题和主题-词概率分布矩阵转化为文档-主题和主题-词评分矩阵。通过计算背景主题与评分矩阵中各主题之间的相似度对主题进行排序,挖掘出学术论文中的研究热点。实验结果表明,该方法能提高LDA主题模型的挖掘效果,有助于发现有价值的学术研究热点主题。  相似文献   

11.
孙劲光  马志芳  孟祥福 《计算机工程》2013,(12):211-215,222
受语言固有的模糊性、随机性以及传统文本特征词权重值计算方法不适用于情感词等因素的影响,文本情感分类的正确率很难达到传统文本主题分类的水平。为此,提出一种基于情感词属性和云模型的情感分类方法。结合情感词属性和简单句法结构以确定情感词的权重值,并利用云模型对情感词进行定性定量表示的转换。实验结果表明,该方法对情感词权重值计算是有效的,召回率最高达到78.8%,且与基于词典的方法相比,其文本情感分类结果更精确,正确率最高达到68.4%,增加了约9%的精度。  相似文献   

12.
针对方面级情感分析存在的局部信息捕捉不充分、多个意见词混淆的问题,提出了一种基于词共现的方面级情感分析模型。该模型将方面级情感分析看成句子对任务,利用BERT获得包含上下文与方面词交互注意力的节点信息;同时,对每条数据样本构建独立的词共现图,使用门控图神经网络更新节点,加强方面词附近信息的融合,减少无关意见词的干扰;之后在自注意力层进一步融合全局信息,最终取出方面词节点送入非线性层获得分类结果。与6个基线模型的对比实验结果表明,该模型有效地提升了方面级情感分析的准确性。  相似文献   

13.
目前对防洪重大事件新闻舆情研究较少,针对今日头条平台中关于长江 5 号洪水过境重庆期间,头条新闻的新闻报道和公众评论组成的新闻舆情进行研究。基于自然语言处理的中文分词、LDA 主题模型等方法对由新闻报道和公众评论建立的语料进行探究,通过添加防洪先验知识改进 LDA 主题模型挖掘效果,从起始、集中、衰退 3 个阶段进行舆情发展思考,从新闻媒体和公众 2 个方面对洪水过境重庆的热度和主题 2 个维度组成的热点进行分析,提出防洪重大事件新闻舆情挖掘分析框架。分析结果表明:新闻舆情时间性强,热度、主题与时间关联度高,新闻舆情热点演化过程与洪水演进过程基本一致,可为政府部门把握舆情演化路径、提前做好舆情预警、掌握舆论主动权提供参考。  相似文献   

14.
如何从海量文本中自动提取有价值的观点信息已成为重要的技术挑战,当下的观点挖掘方法大多数是在假设主题相互独立的前提下进行的,但实际上主题与主题之间有着复杂的内在联系。为解决以上问题,在CTM模型的基础上提出了基于主题情感混合的主题相关模型,在考虑到主题相关性的同时,还分析了对应主题下的观点特征以及潜藏的情感倾向,更为精确地获取了文档主题的情感极性,仿真实验验证了本模型的有效性,并使用R语言进行了可视化实验分析。  相似文献   

15.
针对“未然态”的舆情信息,挖掘网络热点、焦点及敏感话题,把握舆情动态,提高处置与监管网络突发事件能力等,是舆情分析的重要研究内容。对基于情感词汇Ontology的话题倾向性进行了研究。通过计算与情感词汇Ontology中情感词汇的语义相似度、统计话题语料中情感特征词汇的词频,计算语料中情感特征词汇的倾向性权重;根据情感特征词汇的倾向性权重计算话题倾向性强度和整体倾向性。最后在情感词汇Ontology指导下对话题中每篇语料的情感分类和倾向性强度进行规范化细粒度标注。  相似文献   

16.
该文研究属性依赖情感知识学习。首先提出了一个新颖的话题模型,属性观点联合模型(Joint Aspect/Opinion model, JAO),来同时抽取评论实体属性及属性相关观点词信息。在此基础上,对于各个属性,构造属性依赖的词关系图,并在该图上应用马尔科夫随机行走过程来计算观点词到少量褒、贬种子词的游走时间(Hitting Time),进而估计这些词的属性依赖的情感极性分值。在餐馆点评数据上的实验表明所提出的方法能有效抽取属性相关观点词,同时有效估计其属性依赖的情感极性分值。  相似文献   

17.
话题演进分析主要是挖掘话题内容随着时间流的演进情况。话题的内容可用关键词来表示。利用word2vec对75万篇新闻和微博文本进行训练,得到词向量模型。将文本流处理后输入模型,获得时间序列下所有词汇的词向量,利用K-means对词向量进行聚类,从而实现话题关键词的抽取。实验对比了基于PLSA和LDA主题模型下的话题抽取效果,发现本文的话题分析效果优于主题模型的方法。同时,采集足够大量、内容足够丰富的语料,可训练得到泛化能力比较强的模型,有利于实时话题演进分析研究工作。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号