首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
为解决传统词共现方法在微博中检测话题时计算复杂度大、查全率不高、查准率低的情况,提出一种基于粗糙集原理的改进词共现算法(RSCW).通过词共现关系形成词共现矩阵,并由共现矩阵找出极大完全子图作为话题簇中心,最后由粗糙集原理找出每个话题的关键词集合.在NLPIR微博内容语料库和实时获取的微博数据集上的实验结果表明,该方法能够有效地从大规模微博信息中检测突发新闻,提高突发新闻的识别率.  相似文献   

2.
基于词共现图的中文微博新闻话题识别   总被引:2,自引:0,他引:2  
针对传统的话题检测算法主要适用于新闻网页和博客等长文本信息,而不能有效处理具有稀疏性的微博数据,给出一种基于词共现图的方法来识别微博中的新闻话题.该方法首先在微博数据预处理之后,综合相对词频和词频增加率2个因素抽取微博数据中的主题词.然后根据主题词间的共现度构建词共现图,把词共现图中每个不连通的簇集看成一个新闻话题,并使用每个簇集中包含信息量较大的几个主题词来表示微博新闻话题.最后在微博数据集上进行实验,实现了对微博中新闻话题的识别,验证了该方法的有效性.  相似文献   

3.
微博已经成为社会新闻舆论最重要的集散地和社会群体平台,对微博信息流进行监测发现,突发事件对于舆情监控具有十分重要的意义。文章通过构建情感向量,采用改进的Kleinberg方法对情感状态进行监测,发现突发事件情感特征及突发期,并采用谱聚类方法对处于突发期的博文进行聚类分析,抽取突发事件。实验结果证明该方法可以快速发现微博流中的突发事件,是一种有效的在线事件检测方法。  相似文献   

4.
突发事件在微博中迅速传播,产生巨大的影响力,因此,突发舆情受到政府、企业的广泛关注.现有的突发话题检测算法只考虑单一的特征实体,无法处理微博中新词、图片、链接等诱导的突发.面向大规模微博消息流,提出一种无需中文分词的实时突发话题检测框架模型.模型依据消息流动态调整窗口大小,并通过传播影响力度量实体的突发权值.采用高阶联合聚类算法同时对实体、消息、用户进行聚类分析,在检测突发话题的同时,得到话题的关联消息及参与用户.对比实验结果表明,算法的准确性高,能够更早地检测到突发话题.  相似文献   

5.
如何从海量、嘈杂的微博文本流中及时发现负面情感突发话题对于突发事件的应急响应和处置至关重要,而传统的突发话题检测方法往往忽略了负面情感突发话题与非负面情感突发话题之间的区别,为此提出了一种面向微博文本流的负面情感突发话题检测(NE-BTD)算法。首先,将微博中的主题词对的加速度和负面情感强度变化率作为负面情感突发话题的判定依据;然后,利用突发词对的速度确定负面情感突发话题的窗口范围;最后,使用一种基于吉布斯采样的狄利克雷多项式混合模型(GSDMM)聚类算法得到窗口中负面情感突发话题的主题结构。在实验中将所提出的NE-BTD算法与已有的一种基于情感方法的话题检测(EBM-TD)算法进行对比,结果表明所提出的NE-BTD算法相较EBM-TD算法准确率和召回率至少提高了20%,并且可以至少提前40 min检出负面情感突发话题。  相似文献   

6.
如何从海量、嘈杂的微博文本流中及时发现负面情感突发话题对于突发事件的应急响应和处置至关重要,而传统的突发话题检测方法往往忽略了负面情感突发话题与非负面情感突发话题之间的区别,为此提出了一种面向微博文本流的负面情感突发话题检测(NE-BTD)算法。首先,将微博中的主题词对的加速度和负面情感强度变化率作为负面情感突发话题的判定依据;然后,利用突发词对的速度确定负面情感突发话题的窗口范围;最后,使用一种基于吉布斯采样的狄利克雷多项式混合模型(GSDMM)聚类算法得到窗口中负面情感突发话题的主题结构。在实验中将所提出的NE-BTD算法与已有的一种基于情感方法的话题检测(EBM-TD)算法进行对比,结果表明所提出的NE-BTD算法相较EBM-TD算法准确率和召回率至少提高了20%,并且可以至少提前40 min检出负面情感突发话题。  相似文献   

7.
微博是舆情话题传播的重要渠道,研究微博网络中的舆情话题传播机制,将有利于对舆情话题的传播过程进行分析与监控,而传统的网络信息传播模型却无法真实地描述微博网络中的舆情话题传播机制。针对以上问题,分析了微博网络中的信息互动模式及舆情话题的传播特点,以传染病动力学中的SIR模型为基础,通过引入一个新的节点状态--接触状态,构建了基于SCIR(Susceptible Contacted Infected Removed)的微博网络舆情话题传播模型。仿真结果表明,该模型可以很好地描述微博网络中的舆情话题传播规律。  相似文献   

8.
针对微博特征空间动态变化、信息噪音大的特点,提出一种基于有意义串动量模型的微博突发话题检测方法.提取时间窗口内微博信息流的有意义串,作为微博信息的动态特征,根据动力学原理对特征进行动量建模,结合特征能量大小、变化趋势以及二阶变化率检测突发特性有意义串,即突发特征,合并突发特征形成突发话题.微博数据实验表明,该方法适用于在线微博突发话题检测,在准确率和召回率上都有明显提升.  相似文献   

9.
提出一种在大规模微博短文本数据集中自动发现新闻话题的方法。该方法在微博数据预处理之后,综合TF-IDF、文档频率增长率和命名实体识别等几个因素抽取微博数据中的主题词。根据主题词之间的语义关系来构建主题词的语义共现图,计算出语义共现图的连通子图,把每个不连通的簇集看成一个新闻话题。在新浪微博数据集上进行实验,实现了对微博中新闻话题的识别。该方法能较好检测出当前时间的热门话题,能够在一定程度上有效地避免错误传播,实验结果验证了该方法的有效性。  相似文献   

10.
杨文太  梁刚  谢凯  杨进  许春 《计算机应用》2017,37(10):2799-2805
针对现有谣言检测方法中存在的数据采集困难和谣言检测滞后的问题,提出一种基于动量模型的突发话题检测和领域专家发现的谣言检测方法。该方法借鉴物理学中的动力学理论对话题特征进行建模,使用特征的动力学物理量描述特征的突发特性和发展趋势,并在对突发特征进行特征聚合之后提取得到突发话题;然后,依据话题与用户个人信息的领域相关性在候选专家池中发现领域相关的微博用户来甄别话题信息的真实性。基于新浪微博数据的实验结果表明,相对于仅基于有监督机器学习的微博谣言识别方法,该方法谣言识别准确率提高了13个百分点;相对于主流人工识别方法,将最长谣言检测用时缩短至20h,能够较好地应用于实际的微博谣言检测环境。  相似文献   

11.
为了解决短文本信息流的特征稀疏性对热点话题发现带来的挑战,提出了结合词语互信息和概率主题模型的微博热点话题发现方法。通过建立词共现矩阵并应用对称非负矩阵分解算法获取词项-主题矩阵,再利用概率潜在语义分析模型进行主题发现,最终通过定义微博热度分析和排序,有效地支持微博热点话题发现。实验表明,此方法能有效地进行话题聚类并检测出热点话题。  相似文献   

12.
针对高维、稀疏的中文微博数据, 提出一种多步骤的新闻话题发现方法。首先结合微博的传播特点, 选取出不同时间窗口中具有较高新闻价值的微博文本; 再利用隐主题模型挖掘微博内容中隐含的主题信息, 并在此基础上进行文本聚类; 最后使用频繁项集挖掘技术获取话题关键词集合。该算法能够较好地实现对中文微博数据的降维与话题发现。真实的微博数据集实验结果验证了该方法的有效性。  相似文献   

13.
话题关联检测是话题检测与跟踪的一项子任务,是判断随机抽取的两篇新闻报道是否讨论同一个话题的技术。受词语共现模型的启发,结合话题关联检测的特点,提出了词语间的动态同现关系,实现了基于动态共现关系的报道相似度计算方法;探讨了相似度计算方法在中文话题关联检测中的应用。通过实验可知,动态共现关系可以在一定程度上反映报道的语义信息,相似度计算方法很好地改善了中文话题关联检测系统的性能,取得了不错的效果。  相似文献   

14.
为了模拟信息在微博环境中的传播情况,根据微博用户行为(发布、关注、转发和评论等)和微博内容,提出一种融合用户行为和内容的微博用户影响力算法。通过对微博用户行为的分析,得到行为因子数据,进而计算出用户影响力的权值。利用微博用户内容建立词共现矩阵,继而运用狄利克雷分配(LDA)模型进行潜在主题分布的识别,通过KL(Kullback Leibler)散度的方法得到用户之间的相似性,最后结合用户影响力权值,得到用户的影响力。实验表明,此算法较为有效。  相似文献   

15.
话题摘要是自然语言处理中对文本进行内容归纳和概要生成的技术.传统的话题摘要研究主要针对新闻、Web网页和博客这样的长文本,本文研究微博短文本的话题摘要问题.本文以微博转发消息为对象,提出具有拓扑结构的微博话题摘要生成算法(Microblog topic summarization,MTS).首先通过微博转发上下文确定代表性词项;然后识别微博转发中的话题区域,从广度和深度两个方向对话题进行归并操作;最后,基于转发关系生成具有拓扑结构的微博话题摘要.本文实验采用真实的微博事件数据集验证MTS算法的有效性和可行性,并采用可视化方式展现微博话题摘要的结果.  相似文献   

16.
新兴话题检测是社交网络研究的热点问题之一。在线社交网络特别是微博的开放性,给话题的流行和爆发提供了前所未有的便利条件。新兴话题是即将流行或爆发的话题,往往伴随着重大的事件或新闻的发生,会产生重大的社会影响,如何在早期识别此类话题,是新兴话题检测研究的主要内容。该文回顾了近年来在新兴话题检测方面的主要进展,分析了新兴话题检测领域面临的挑战,阐述了相关的概念、方法和理论,重点从内容突发特征和信息传播模型两个方面对影响新兴话题检测的方法进行了分析和讨论,并对新兴话题检测的前景做了展望。
  相似文献   

17.
微博作为当代生活中信息传播的重要平台,对其进行热点话题挖掘成为当今重要的研究方向之一。针对传统的热点话题发现方法在处理微博文本时存在文本表示缺乏语义信息、挖掘热点话题效果差等问题,本文提出一种基于频繁词集和BERT语义的文本双表示模型(Text dual representation model based on frequent word sets and BERT semantics, FWS-BERT),通过该模型计算加权文本相似度对微博文本进行谱聚类,进一步基于改进相似性度量的affinity propagation (AP)聚类算法进行微博话题挖掘,最后通过引入文献计量学中的H指数提出一种话题热度评估方法。实验表明,本文提出的方法在轮廓系数及Calinski-Harabasz(CH)指标值上均高于基于频繁词集的单一文本表示方法和K-means方法,并且能准确地对微博数据进行话题表示和热度评估。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号