首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 27 毫秒
1.
针对传统主题模型忽略了微博短文本和文本动态演化的问题,提出了基于微博文本的词对主题演化(BToT)模型,并根据所提模型对数据集进行主题演化分析。BToT模型在文本生成过程中引入连续的时间变量具体描述时间维度上的主题动态演化,同时在文档中构成主题共享的“词对”结构,扩充了短文本特征。采用Gibbs采样方法对BToT参数进行估计,根据获得的主题-时间分布参数对主题进行演化分析。在真实微博数据集上进行验证,结果表明,BToT模型可以描述微博数据集中潜在的主题演化规律,获得的困惑度评价系数低于潜在狄利克雷分配(LDA)、词对主题模型(BTM)和主题演化模型(ToT)。  相似文献   

2.
在线主题模型基于先时间离散后主题建模的思想,存在文本流切分带来的模型无法平滑过渡的问题,同时时间片大小的选择对在线话题的抽取质量影响显著。提出了一种新的在线短文本流主题演化模型Online-BTOT。模型在遗传计算方法上进行了改良,不仅考虑时间片上的总体主题强度对遗传权重的影响,也将时间片上主题强度的变化纳入先验参数的计算中。同时,为了得到主题强度在时间片上的连续变化和克服短文本的稀疏性,在单时间片上结合了TOT模型和BTM模型。通过在微博短文本语料上与OLDA模型和OBTM模型的对比实验,证明Online-BTOT模型能够有效地分析在线短文本流的主题演化。  相似文献   

3.
《计算机科学与探索》2019,(7):1102-1113
针对目前基于主题模型的微博短文本热点话题发现存在特征稀疏、高维度以及需要人工指定主题数目等问题,提出一种基于改进突发词对主题模型(bursty biterm topic model,BBTM)的热点话题发现方法(hot topic-hot biterm topic model,H-HBTM)。首先,利用词的突发概率进行特征选择,过滤非突发词。其次,结合微博文本的突发特性和传播特性计算微博词对的热值突发概率,将热值突发概率作为BBTM的先验概率。最后,利用基于密度的方法自适应选择BBTM的最优话题数目,确定最优BBTM,实现热点话题发现。在真实微博数据集上的实验表明,H-HBTM可以在不需要预先设定主题数目的情况下,自动发现最优话题模型,并且H-HBTM发现的热点话题的质量高于基于BBTM、词对主题模型以及潜在狄立克雷分配的方法。  相似文献   

4.
随着互联网的发展,微博已成为人们获取信息的主要平台,为从海量微博中挖掘出有价值的主题信息,结合微博中的会话、转发和话题标签,将微博划分为用户兴趣、用户互动和话题微博3类,提出基于作者主题模型( ATM)的话题标签主题模型HC-ATM,使用Gibbs抽样法对模型进行推导,获取微博主题结构。在Twitter数据集上的实验结果表明,与ATM模型和基于潜在狄利克雷分布的微博生成模型相比, HC-ATM模型的主题困惑度更小、差异度更大,并且能有效挖掘出不同微博类型的主题分布。  相似文献   

5.
微博作为一个重要的信息平台,每天都有大量用户访问,重要的舆论事件在微博上会形成热门话题。本文提出了一种新的微博话题发现方法:基于词共现网络的话题发现方法(Topic detection in freqent word network,TDFWN) ,来挖掘微博语料中蕴含的热点话题。该方法首 先对微博文本中的k频繁词集(k≥3)进行挖掘,利用频繁词集的共现关系构建词共现网络。对该 网络进行社区划分,同一社区内的词通常描述同一微博话题,即话题以社区的形式出现。实验结果表明TDFWN算法能够快速、全面地发现微博中的热门话题,并且可以实现微博文本的自动聚类。  相似文献   

6.
针对微博热点话题检测使用主题模型只能提取出无序话题词组合的问题,提出一种结合词激活力模型与主题模型各自优点的微博热点话题检测方法及话题关键词的计算方法。首先,使用传统的主题模型提取出微博文本中的热点主题;其次,根据各主题下文档的概率分布提取出新的话题文档;然后引入词激活力模型计算各个词之间的词激活力,生成词激活力矩阵;最后,利用词激活力矩阵生成有序的词序列作为热点事件。实验验证了该方法的可行性,表明所提出方法能够很好地识别出热点词并生成可读性高的事件。  相似文献   

7.
由于短文本长度较短,在分类时会面临数据稀疏和语义模糊等问题。提出新型图卷积网络BTM_GCN,该网络利用双项主题模型(Biterm Topic Model,BTM)在短文本数据集上训练出固定数量的文档级潜在主题,并作为一种节点嵌入到文本异构图中,再与异构图中的文档节点进行连接,最后利用图卷积网络来捕获文档、词与主题节点之间的高阶邻域信息,从而丰富文档节点的语义信息,缓解短文本语义模糊的问题。在三个英文短文本数据集上的实验结果表明,该方法相比基准模型具有较优的分类效果。  相似文献   

8.
针对主题模型不能充分考虑情感极性信息和衰减因子设定单一的问题,提出情感极性和影响函数的OBTM弹幕主题演化方法.提出基于改进负采样的word2vec词向量模型,对弹幕词语的情感极性进行标注;设计影响函数,反映离散时间中文本主题的历史影响程度;利用情感极性特征和影响函数改进OBTM模型,用于弹幕主题演化的分析.实验结果表明,改进的OBTM可以有效优化主题演化效果,能够扩展弹幕在主题情感极性演化方面的应用.  相似文献   

9.
社会化标签系统允许用户使用个性化的词汇对网络中的资源进行标注而被用户广泛接受。在微博网络中,用户可以为自己加注标签以推广自己或者方便别人找到自己。深入分析了微博用户数据,总结了微博用户标签的特点,针对LDA(latent Dirichlet allocation)主题模型在处理短文本时存在的不足,提出了一种基于好友关系约束主题模型。在此基础上对微博用户标签进行主题分析,计算用户的主题分布,对标签词进行聚类,并最终为用户推荐标签。通过对比实验证明了该方法可以提高标签推荐的准确度。  相似文献   

10.
王振飞  刘凯莉  郑志蕴  王飞 《计算机科学》2017,44(8):270-273, 279
话题演化研究有助于追踪用户的喜好和话题的发展趋势,对于舆情预警具有重要意义。目前,话题演化方法注重运用话题生成模型实现话题演化分析,忽略了话题中时间因素和背景词的存在。以传统话题生成模型LDA为基础,将其扩展为微博话题生成模型MTLDA。MTLDA模型增加了对背景词的考虑,提高了话题生成的效率,同时对微博话题集进行时间片划分,利用KL距离计算相邻时间片话题距离,分析话题演化情况。以新浪微博数据为例进行实验,结果表明,MTLDA模型通过时间片划分完成了微博话题的生成,话题演化结果与实际情况吻合。  相似文献   

11.
王臻皇  陈思明  袁晓如 《软件学报》2018,29(4):1115-1130
随着微博的发展,其影响力日益增大,对微博主题内容进行分析具有重要的价值.主题模型技术能够从文本数据中提取主题,但是,由于微博文本短、随意性大、信息量小等特点,微博主题的分析具有一定的难度.提出了一个微博主题可视分析系统,利用多种互相关联的视图与丰富的交互手段,支持用户对主题模型结果进行分析与探索.系统结合了微博数据的特点,引入微博用户与时间因素,支持分析者从多角度对微博主题进行全面分析.系统支持用户在主题可视分析的基础上,通过交互操作对主题进行编辑,从而改进主题模型,提高模型的准确性和可靠性.案例分析结果表明,提出的系统可以有效地帮助用户分析微博主题和修正主题.  相似文献   

12.
舆情新闻事件跟踪,是舆情监控、热点分析、政策制定等研究和应用的重要基础。针对舆情新闻的稀疏性、敏感性、易演化性、次生性等特点,基于在线Biterm主题模型(online Biterm topic model,DBTM),通过随机坍缩变分贝叶斯(stochastic collapsed variational Bayesian inference,SCVB0)算法更新参数,提出面向舆情新闻事件监控的主题模型MBTM(monitor Biterm topic model),利用该模型检测初期事件主题,跟踪后续新闻所属的主题。为了对存在关联关系的事件进行串联,进一步给出事件线索的概念,分别从主题层面和语义层面度量线索关联度,进而针对新闻事件主题生成事件线索。实验结果表明,MBTM模型在大多数指标上均优于OBTM等模型,验证了该方法的有效性和高效性。  相似文献   

13.
章建  李芳 《中文信息学报》2015,29(2):179-189
自动挖掘大规模语料中的语义信息以及演化关系近年来已受到广大专家学者的关注。话题被认为是文档集合中的潜在语义信息,话题演化用于研究话题内容随时间的变化。该文提出了一种基于上下文的话题演化和话题关系抽取方法。分析发现,一个话题常和某些其他话题共现在多篇文档中,话题间的这种共现信息被称为话题的上下文。上下文信息可以用于计算同时间段话题间的语义关系以及识别不同时间段中具有相同语义的话题。该文对2008年~2012年两会报告以及2007年~2011年NIPS科技文献进行实验,通过人工分析,利用话题的上下文信息,不但可以提高话题演化的正确率,而且还能挖掘话题之间的语义关系,在话题演化的基础上,显示话题关系的演化。  相似文献   

14.
陈千  桂志国  郭鑫  向阳 《计算机应用》2015,35(2):456-460
针对网络大数据时代文本流的主题演化研究大多基于经典概率主题模型,以词袋假设为前提导致主题的语义缺失问题和批处理问题,提出一种在线增量的基于特征本体的主题演化算法。首先,基于词共现和通用本体库WordNet构建特征本体,用特征本体对文本流主题进行建模;其次,提出一种文本流主题矩阵构建算法,实现在线增量主题演化分析;最后,依据该矩阵提出文本流主题本体演化图构建算法,利用特征本体的子图相似度计算主题相似度,从而获得文本流中主题随时间的演化模式。在科技文献上的实验上,满意度同传统在线潜在狄利克雷分配模型(LDA)不相上下,但时间复杂度降低到O(nK+N)。所提出的方法引入了本体,加入了语义关系标注,可图形化展现主题的语义特征,并在此基础上在线增量地实现了主题演化图的构建,在语义解释性和主题可视化方面更具有优势。  相似文献   

15.
话题演化用于自动分析话题变化趋势,具有较高的应用和研究价值。ILDA(Infinite Latent Dirichlet Allocation)模型在LDA(Latent Dirichlet Allocation)模型的基础上增加了狄利克雷过程,除了能获取隐变量,更重要的是能完成超参的动态更新和主题数的变动。而已有的话题演化研究中,话题的主题数需要事先指定且无法变动,基于ILDA模型的方法则可以针对性地解决该问题。构建的话题演化分析系统可实现如下功能:各周期内按不同主题分类、相邻周期间的主题进行关联、按时间顺序计算子话题强度。实验显示,基于ILDA模型的参数动态更新符合实际需求,话题演化分析过程完善可行。  相似文献   

16.
随着微博的日趋流行,新浪微博已成为公众获取和传播信息的重要平台之一,针对微博数据的话题挖掘也成为当前的研究热点。提出一个面向大规模微博数据的话题挖掘方法。首先对大规模微博数据进行分析,基于Bloom Filter算法对数据进行去重处理,针对微博的特有结构,对文本进行预处理,提出改进的LDA主题模型Social Network LDA(SNLDA),采用吉布斯采样法进行模型推导,挖掘出微博话题。实验结果表明,方法能有效地从大规模微博数据中挖掘出话题信息。  相似文献   

17.
一种基于LDA的在线主题演化挖掘模型   总被引:3,自引:1,他引:2  
崔凯  周斌  贾焰  梁政 《计算机科学》2010,37(11):156-159
基于文本内容的隐含语义分析建立在线主题演化计算模型,通过追踪不同时间片内主题的变化趋势进行主题演化分析。将Latent Dirichlet Allocation(LDA)模型扩展到在线文本流,建立并实现了在线LDA模型;利用前一时间片的后验概率影响当前时间片的先验概率来维持主题间的连续性;根据改进的增量Gibbs算法进行推理,获取主题一词和文档一主题的概率分布,利用KullbackLeibler(KL)相对嫡来衡量主题之间的相似度,从而发现主题演化中的“主题遗传”和“主题变异”。实验结果表明,该模型能从互联网语料中找出主题的演化趋势,具有良好的效果。  相似文献   

18.
基于LDA模型的BBS话题演化   总被引:1,自引:0,他引:1  
BBS(论坛)作为一种新兴的网络媒体,是网民获取信息和发表评论的主要渠道之一。怎样组织BBS上的话题,发现和跟踪新话题以及话题的演化成为了研究的热点。传统的方法更多的是去检测和跟踪话题,而没有考虑话题的演化。提出了基于LDA模型的话题演化方法,表示话题在时间上的演化情况,发现热门话题和冷门话题,能更好地指导网民了解正在发生的事情。实验证明有很好的效果。  相似文献   

19.
一种话题演化建模与分析方法   总被引:1,自引:0,他引:1  
胡艳丽  白亮  张维明 《自动化学报》2012,38(10):1690-1697
根据时序关系将文本流划分为连续时间片中的文本集, 在线抽取各时间片中隐含的子话题, 采用模型选择方法动态确定各时间片包含的子话题数, 以历史时间片的子话题信息作为当前子话题发现的先验知识, 基于 OLDA (Online latent Dirichlet allocation)模型抽取各时间片包含的子话题, 通过 Gibbs 抽样对话题模型参数进行估计; 对子话题进行关联分析, 定义子话题产生、消亡、继承、分裂和合并五种演化类型, 提出基于相对熵的子话题关联分析方法, 根据子话题语义相似度和时序关系建立子话题间的关联, 由具有时序关系和内容关联的子话题组成话题, 通过子话题内容和强度的变化描述话题演化. 基于真实网络新闻的话题演化分析实验表明, 本文提出的话题演化分析方法能够有效检测 网络新闻话题内容和强度的演化.  相似文献   

20.
提出一种基于马尔可夫链的主题和时间敏感的合作关系网络实体排序算法TTS-Rank,将节点排序过程解释为随机投票过程.算法首先将合作关系网络按照合作主题进行投影,然后在马尔可夫链随机游走模型中扩展了合作时间敏感的状态转移函数,最后根据迭代计算出的各节点得票数对实体进行排序.基于互联网开源社区合作关系网络数据的实验表明,TTS -Rank算法较传统算法更为精确,能有效支持面向不同技术主题、不同时间区间的实体排序.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号