首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
陈静  刘琰  王煦中 《计算机科学》2016,43(8):223-228, 239
事件以话题形式在微博中迅速传播,并能够产生巨大的影响力。因此,对 参与 话题传播过程的用户进行分析以及发现具有不同主题兴趣情感倾向性的群体受到政府和企业的广泛关注。现阶段,绝大多数应用到微博的群体发现算法都是从单个用户出发,仅考虑了用户社会联系,与用户共享内容相隔离,其群体发现的结果不具有语义信息。少数算法综合了用户社会联系与内容,却忽略了微博本身的结构特性。因此从微博话题的角度出发,综合考虑话题传播过程中的用户交互、微博文本内容以及情感极性,同时结合用户的行为信息,提出了一个基于概率生成模型的微博话题传播群体划分方法BP-STG。采用吉布斯抽样对模型进行推导,不仅能够挖掘出具有不同主题倾向性的群体,同时还能够挖掘出群体的情感倾向分布以及用户在群体中的活跃度及其行为表现。此外,模型还能够推广到许多带有社交网络性质的媒体中。在获取的新浪微博两个话题数据集上的实验表明,BP-STG模型不仅能够有效地对微博话题传播群体进行划分,而且能够发现群体内部活跃用户以及用户在群体中的行为模式。  相似文献   

2.
该文描述了基于特定事件的新闻报道和微博在话题层面的对比研究。首先利用LDA话题模型抽取两种媒体上关于特定事件的话题,然后提出了话题关注度、差异度、演化度的定义和计算公式,改进了不同媒体话题差异度的计算方法,最后,选取四个不同种类的事件,进行实验对比与分析,结果显示,关于同一事件,1)微博上评论性话题较多,话题关注度值比较接近;新闻报道上事实性话题较多,话题关注度值差异较大;2)微博与新闻报道对评论性话题词汇差异度大,事实性话题词汇差异度小;3)微博上评论性话题持续时间较长,内容变化较少;新闻报道上事实性话题持续时间较长,内容变化较少。  相似文献   

3.
随着自媒体的迅速发展,微博中的舆情监控和舆情疏导成为一项重大的研究课题. 为了解决传统话题检测方法对于微博中大数据的分析往往具有复杂度高、实时性低、影响力小等问题,提出一种基于词共现和情感分析的突发话题检测方法. 通过研究微博中情感的突发和共现关系,从而建立情感子空间模型;通过该模型对微博中的信息流进行分类,最后对每个类别中的微博进行主题词提取,实现话题检测的目的. 在NLPIR微博内容语料库上的实验结果表明,该方法能够有效地从大规模微博信息中检测突发新闻,提高突发新闻的识别率.  相似文献   

4.
针对网民讨论主题与情感对企业危机舆情传播的影响,基于生命周期理论,提出融合知识图谱和情感图谱的企业危机舆情主题与情感演化模型。将“双汇生产车间乱象”事件作为研究案例,首先收集与舆情相关的微博文本并进行舆情阶段划分;其次采用知识图谱、LDA主题模型、朴素贝叶斯情感分类器和情感图谱对舆情各阶段的网民关注热点、讨论主题和情感演化规律进行实证分析。研究表明:网民讨论内容随舆情演化略有不同,但部分话题会被持续讨论;网民情感变化与主题演化规律相吻合,负向情感在爆发期达到峰值;媒体用户影响力高于微博红人,但普通用户易与微博红人产生情感共鸣。  相似文献   

5.
微博文本的数据稀疏特性,使传统话题跟踪技术只能捕获部分话题微博且准确度不高。同时,在追踪过程中,话题会出现漂移现象。针对以上两个问题,提出一种基于层叠条件随机场的微博热点话题跟踪方法。该方法先通过标识模型标识出可能相关的微博,源热点微博和标识微博分别作为分类模型的观察序列和状态序列来计算相关度分类。其次,通过构造自适应模型对识别模型进行更新且削弱数据稀疏问题,并从相关微博中选取新的观察序列,其余作为新的状态序列进行迭代分类处理。实验表明,该方法比传统方法综合指标F值平均提升4.13%。  相似文献   

6.
对微博话题的立场进行精确研判是短文本挖掘的重点之一。文章提出了一种基于主题相关性对微博分类研判的方法,旨在识别网民对于微博话题的立场,是支持还是反对。微博和主题的相关性大小,常常会导致其文本特征有较大差异。文章首先利用关键词提取技术和互信息计算方法获取话题主题词集,接着对话题语料按是否与主题相关进行分类,然后分别采用机器学习和词典规则两种方法进行研判,综合得到话题的立场。实验结果表明,主题相关文本采用机器学习而主题无关文本采用词典规则的方法可以大大提高研判准确率。以此为基础,文章构建了一个微博话题立场研判模型,可用于政府有关部门监测互联网舆情以及企业评估产品市场等方面。  相似文献   

7.
胡长龙  唐晋韬  王挺 《计算机科学》2013,40(Z11):235-237,245
Hashtag(微博话题词)是发布者为微博信息创建的话题标签,能帮助用户在海量微博数据中高效发现热点话题。Hashtag由用户创建的特性使得不同的Hashtag可能代表着同一个话题,挖掘Hashtag之间的话题相关性将有助于热点话题发现和聚合展示。研究了Hashtag之间相关性分析问题,抽取了Hashtag文本特征、微博内容、Hashtag的出现次数-时间分布以及Hashtag共现等一系列特征,以分析Hashtag之间的话题相关性。在新浪微博数据上的实验结果显示,这一系列特征组合能较好地帮助Hashtag相关性分析。  相似文献   

8.
对网络舆情进行有效监测、预警和管控,引导网民情感走向是网络安全的重要工作内容。爬取新浪微博“新冠疫情”相关博文的评论数据,通过python利用BOW模型,TF-IDF算法和逻辑回归模型构建文本分类算法,对网民的评论情感特点进行研究。对爬取清洗后26688条评论数据代入模型进行情感分类得出网民情感的舆情特点和走向,从时间线上看2021年负面评论数据高于2020年。对不同时间线的舆情特点进行了深度分析,同时结合2021年四季度西安疫情的特殊舆情事件展开了回溯分析。  相似文献   

9.
在微博热点话题发现中,微博文本短、词量少、时效性高,传统的话题检测方法不再适用。针对这些新的特点,提出一种基于微博文本和元数据的话题发现方法。首先利用微博发布时间、用户信息、微博转发评论等元数据构造描述微博词汇能量的复合权值,进而提取出话题的主题词汇,然后基于上下文关系构造主题词汇簇,最后对微博文本进行二次聚类,从而得到微博中的隐含话题以及相关微博文本。在真实微博数据上的实验表明,该方法能有效发现热门话题,提高话题检测的准确率和查全率。  相似文献   

10.
杨文太  梁刚  谢凯  杨进  许春 《计算机应用》2017,37(10):2799-2805
针对现有谣言检测方法中存在的数据采集困难和谣言检测滞后的问题,提出一种基于动量模型的突发话题检测和领域专家发现的谣言检测方法。该方法借鉴物理学中的动力学理论对话题特征进行建模,使用特征的动力学物理量描述特征的突发特性和发展趋势,并在对突发特征进行特征聚合之后提取得到突发话题;然后,依据话题与用户个人信息的领域相关性在候选专家池中发现领域相关的微博用户来甄别话题信息的真实性。基于新浪微博数据的实验结果表明,相对于仅基于有监督机器学习的微博谣言识别方法,该方法谣言识别准确率提高了13个百分点;相对于主流人工识别方法,将最长谣言检测用时缩短至20h,能够较好地应用于实际的微博谣言检测环境。  相似文献   

11.
Analyzing market performance via social media has attracted a great deal of attention in the finance and machine-learning disciplines.However,the vast majority of research does not consider the enormous influence a crisis has on social media that further affects the relationship between social media and the stock market.This article aims to address these challenges by proposing a multistage dynamic analysis framework.In this framework,we use an authorship analysis technique and topic model method to identify stakeholder groups and topics related to a special firm.We analyze the activities of stakeholder groups and topics in different periods of a crisis to evaluate the crisis’s influence on various social media parameters.Then,we construct a stock regression model in each stage of crisis to analyze the relationships of changes among stakeholder groups/topics and stock behavior during a crisis.Finally,we discuss some interesting and significant results,which show that a crisis affects social media discussion topics and that different stakeholder groups/topics have distinct effects on stock market predictions during each stage of a crisis.  相似文献   

12.
热点事件在发展过程中包括多个相关话题,分析多个话题在时序上的演化和传播路径,能够深层次把握热点事件产生、发展、消亡的具体细节。为此提出一种基于关联规则的热点事件时序分析方法。首先将关联规则算法并行实现获取多个时间片的频繁关键词集;然后筛选所有频繁关键词集的关联规则形成关联规则集,从而得到多个话题关键词集合;最后根据关键词集合分析热点事件多个话题的演化和传播路径。实验表明,该方法能够全面有效地跟踪热点事件的动态变化过程,为网络舆情监控和管理提供借鉴和支撑。  相似文献   

13.
一种基于密度的自适应最优LDA模型选择方法   总被引:13,自引:0,他引:13  
主题模型(topic models)被广泛应用在信息分类和检索领域.这些模型通过参数估计从文本集合中提取一个低维的多项式分布集合,用于捕获词之间的相关信息,称为主题(topic).针对模型参数学习过程对主题数目的指定和主题分布初始值非常敏感的问题,作者用图的形式阐述了LDA(Latent Dirichlet Allocation)模型中主题产生的过程,提出并证明当主题之间的相似度最小时模型最优的理论;基于该理论,提出了一种基于密度的自适应最优LDA模型选择方法.实验证明该方法可以在不需要人工调试主题数目的情况下,用相对少的迭代,自动找到最优的主题结构.  相似文献   

14.
基于子话题分治匹配的新事件检测   总被引:4,自引:0,他引:4  
洪宇  张宇  范基礼  刘挺  李生 《计算机学报》2008,31(4):687-695
新事件检测是话题检测与跟踪领域的一项重要研究,其任务是实时监控新闻报道流并从中识别新话题.现有方法将话题和报道描述为单一结构的特征向量进行匹配,造成子话题间互为噪声并形成错误语义,从而误导新话题的识别.针对这一缺陷,文中提出基于子话题分治匹配的新事件检测方法,将话题和报道划分为不同子话题,根据相关子话题的比例关系和分布关系建立新话题识别模型.实验在TDT4和TDT5中获得显著改进,最小检测错误代价为0.4061,相应漏检率为0.1859.  相似文献   

15.
对话情感分析旨在识别出一段对话中每个句子的情感倾向,其在电商客服数据分析中发挥着关键作用。不同于对单个句子的情感分析,对话中句子的情感倾向依赖于其在对话中的上下文。目前已有的方法主要采用循环神经网络和注意力机制建模句子之间的关系,但是忽略了对话作为一个整体所呈现的特点。建立在多任务学习的框架下,该文提出了一个新颖的方法,同时推测一段对话的主题分布和每个句子的情感倾向。对话的主题分布,作为一种全局信息,被嵌入到每个词以及句子的表示中。通过这种方法,每个词和句子被赋予了在特定对话主题下的含义。在电商客服对话数据上的实验结果表明,该文提出的模型能充分利用对话主题信息,与不考虑主题信息的基线模型相比,Macro-F1值均有明显提升。  相似文献   

16.
常见的词嵌入向量模型存在每个词只具有一个词向量的问题,词的主题值是重要的多义性条件,可以作为获得多原型词向量的附加信息。在skip-gram(cbow)模型和文本主题结构基础上,该文研究了两种改进的多原型词向量方法和基于词与主题的嵌入向量表示的文本生成结构。该模型通过联合训练,能同时获得文本主题、词和主题的嵌入向量,实现了使用词的主题信息获得多原型词向量,和使用词和主题的嵌入式向量学习文本主题。实验表明,该文提出的方法不仅能够获得具有上下文语义的多原型词向量,也可以获得关联性更强的文本主题。  相似文献   

17.
微博、论坛等交互式网站上的热点话题是网络舆情的源头与集散地,早期发现与预测网络热点话题是舆情控制的关键。针对交互式网络热点话题,Yasuko Matsubara等人对信息传播的模式进行了建模,提出了SpikeM模型,该模型可以较好地反映信息传播的模式。但是针对热点话题呈现多峰的情况,该模型则无法拟合。且该模型假设针对某一事件,每个网络用户只能发布一次消息,这与实际情况不符。从实际情况出发(针对同一话题,网络用户可以多次发布消息),提出了脉冲时序行为动力模型(PTSDM)。假设多次发布消息的用户数服从幂律分布,从用户行为的角度分析话题的特征,在模型中引入脉冲干扰,使模型更具随机性,更符合客观实际,从而可以拟合不同类型的热点话题。采用两个数据集作为测试样本,进行了实验,实验表明了所构建模型的有效性。  相似文献   

18.
话题演化分析是舆情监控的研究热点之一,面向微博热点话题进行演化分析,对于网络用户以及网络监管部门都有很重要的现实意义。针对在线词对主题模型(On-line Biterm Topic Model,OBTM)新旧主题混合、冗余词概率相对较高的问题,对OBTM进行改进,提出基于话题标签和先验参数的OBTM模型(Topic Labels and Prior Parameters OBTM,LPOBTM)。根据微博热点话题的话题标签,将微博文本集区分为含话题标签和不含话题标签的两类数据集,并设置不同的文档-主题先验参数;在前一时间片文档-主题概率分布的基础上,借鉴Sigmod函数对所有主题进行强度排名,从而优化当前时间片上主题-词分布的先验参数计算方法。实验结果表明,LPOBTM能够更准确地描述话题的内容演化情况,并且有更低的模型困惑度。  相似文献   

19.
孙媛  赵倩 《中文信息学报》2017,31(1):102-111
如何获取藏文话题在其他语种中的相关信息,对于促进少数民族地区的社会管理科学化水平、维护民族团结和国家统一、构建和谐社会具有重要意义。目前大多数研究集中在英汉跨语言信息处理方面,针对藏汉跨语言研究较少。如何根据藏语、汉语的特点,并结合目前藏语信息处理的研究现状,实现藏汉多角度的社会网络关系关联,同步发现关注话题并进行数据比较,是迫切需要解决的问题。该文在藏汉可比语料的基础上,利用词向量对文本词语进行语义扩展,进而构建LDA话题模型,并利用Gibbs sampling进行模型参数的估计,抽取出藏语和汉语话题。在LDA话题模型生成的文档-话题分布的基础上,提出一种基于余弦相似度、欧氏距离、Hellinger距离和KL距离四种相似度算法的投票方法,来实现藏汉话题的对齐。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号