共查询到17条相似文献,搜索用时 109 毫秒
1.
基于MB-LDA模型的微博主题挖掘 总被引:5,自引:0,他引:5
随着微博的日趋流行,Twitter等微博网站已成为海量信息的发布体,对微博的研究也需要从单一的用户关系分析向微博本身内容的挖掘进行转变.在数据挖掘领域,尽管传统文本的主题挖掘已经得到了广泛的研究,但对于微博这种特殊的文本,因其本身带有一些结构化的社会网络方面的信息,传统的文本挖掘算法不能很好地对它进行建模.提出了一个基于LDA的微博生成模型MB-LDA,综合考虑了微博的联系人关联关系和文本关联关系,来辅助进行微博的主题挖掘.采用吉布斯抽样法对模型进行推导,不仅能挖掘出微博的主题,还能挖掘出联系人关注的主题.此外,模型还能推广到许多带有社交网络性质的文本中.在真实数据集上的实验表明,MB-LDA模型能有效地对微博进行主题挖掘. 相似文献
2.
3.
随着微博的日趋流行与广泛使用,新浪等微博网站已经成为海量信息的来源,虽然传统的文本主题挖掘方法已经得到广泛的应用研究,但对于微博这种特殊结构的文本,传统的挖掘算法不能很好地对其进行研究。为了弥补目前微博平台主题挖掘方法的不足,以及考虑到微博信息的稀疏性,多维性等特点,提出有针对性的预处理方法,将用户微博数据与AT模型结合,通过吉布斯采样进行微博主题挖掘,对作者主题进一步提取得到用户兴趣。通过在真实数据集上的实验,以及与LDA模型对比,证明该模型能有效得到微博主题。 相似文献
4.
基于动态主题模型融合多维数据的微博社区发现算法 总被引:1,自引:0,他引:1
随着微博用户的不断增加,微博网络已经成为用户进行信息交流的平台.针对由于博文长度受限,传统的社区发现算法无法有效解决微博网络的稀疏性等问题,提出了DC-DTM算法.DC-DTM算法首先将微博网络映射为有向加权网络,网络中边的方向反映结点之间的关注关系,利用提出的DTM模型计算出结点之间的语义相似度,并将其作为节点间连边的权重.DTM模型是一种微博主题模型,该模型不仅能够挖掘博客的主题分布,而且能计算出某一主题中用户的影响力大小.其次,利用提出的复杂度低的标签传播算法WLPA进行微博网络的社区发现.该算法的初始化阶段将影响力大的用户结点作为初始结点,标签按照结点的影响力从大到小进行传播,克服了传统标签传播算法的逆流现象,提高了标签传播算法的稳定性.在真实数据上的实验表明,DTM模型能很好地对微博进行主题挖掘,DC-DTM算法能够有效地挖掘出微博网络的社区. 相似文献
5.
6.
主题模型是挖掘微博潜在主题的重要工具.然而,现有的主题模型多由 Latent Dirichlet Allocation (LDA)派生,它需要用户预先指定主题数目.为了自动挖掘微博主题,作者提出了一个基于分层 Dirichlet 过程(Hierarchical Dirichlet Process,HDP)的非参数贝叶斯模型 MB-HDP.首先,针对微博应用场景,假设消息是不可交换的;接着,利用微博的时间信息、用户兴趣以及话题标签,聚合主题相关的消息以解决微博短文本的数据稀疏问题;然后,扩展Chinese Restaurant Franchise (CRF)对微博数据进行主题建模;最后,设计一个相应的 Markov Chain Monte Carlo (MCMC)采样方法,推导 MB-HDP 模型的分布参数.实验表明,在生成主题质量、内容困惑度和模型复杂度等指标上,MB-HDP 模型明显优于 LDA 和 HDP 两种模型. 相似文献
7.
8.
针对传统主题模型忽略了微博短文本和文本动态演化的问题,提出了基于微博文本的词对主题演化(BToT)模型,并根据所提模型对数据集进行主题演化分析。BToT模型在文本生成过程中引入连续的时间变量具体描述时间维度上的主题动态演化,同时在文档中构成主题共享的“词对”结构,扩充了短文本特征。采用Gibbs采样方法对BToT参数进行估计,根据获得的主题-时间分布参数对主题进行演化分析。在真实微博数据集上进行验证,结果表明,BToT模型可以描述微博数据集中潜在的主题演化规律,获得的困惑度评价系数低于潜在狄利克雷分配(LDA)、词对主题模型(BTM)和主题演化模型(ToT)。 相似文献
9.
微博的广泛使用产生了大量微博数据,这些数据中包含有大量有价值的信息。然而由于微博信息的文本内容简短且其本身带有一些结构化的社会网络方面的信息,传统的主题模型建模方法并不能十分有效地处理微博信息。根据微博信息的特点,提出一个基于Latent Dirichlet Allocation(LDA)的微博生成模型MRT-LDA,利用微博之间的转发、对话、支持(赞)和评论等关系来计算微博之间的相关性,综合考虑微博之间的相关性和同一用户微博信息间的关系,来辅助对微博的主题进行挖掘。采用吉布斯抽样法对模型进行推导,结果表明该模型能有效地对微博数据进行文本挖掘。 相似文献
10.
11.
12.
随着微博的日趋流行,新浪微博已成为公众获取和传播信息的重要平台之一,针对微博数据的话题挖掘也成为当前的研究热点。提出一个面向大规模微博数据的话题挖掘方法。首先对大规模微博数据进行分析,基于Bloom Filter算法对数据进行去重处理,针对微博的特有结构,对文本进行预处理,提出改进的LDA主题模型Social Network LDA(SNLDA),采用吉布斯采样法进行模型推导,挖掘出微博话题。实验结果表明,方法能有效地从大规模微博数据中挖掘出话题信息。 相似文献
13.
基于特定领域的中文微博热点话题挖掘系统BTopicMiner 总被引:1,自引:0,他引:1
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。 相似文献
14.
针对现有模型无法进行微博主题情感演化分析的问题,提出一种基于主题情感混合模型(TSCM)和情感周期性理论的主题情感演化模型——动态主题情感混合模型(DTSCM)。DTSCM通过捕获不同时间片中微博消息集的主题和情感,追踪不同时间片内主题与情感的变化趋势,获得主题情感演化图,从而实现主题和情感的演化分析。真实微博数据集上的实验结果表明,与当前优秀代表算法JST(Joint Sentiment/Topic)、S-LDA(Sentiment-Latent Dirichlet Allocation)和DPLDA(Dependency Phrases-Latent Dirichlet Allocation)相比,该方法的情感分类准确率分别提高了3.01%、4.33%和8.75%,并且可以获得主题情感演化图。这表明该方法具有更高的情感分类准确率并且可以进行微博主题情感演化分析,为舆情分析等应用提供了较好的帮助。 相似文献
15.
16.
17.
针对旅游文本噪声多、景点多且展示不直观的问题,提出一种基于概率主题模型的景点-主题模型。模型假设同一篇文档涉及多个具有相关关系的景点,引入“全局景点”过滤噪声语义,并利用Gibbs采样算法估计最大似然函数的参数,获取目的地景点的主题分布。实验通过对景点主题特征进行聚类,评估聚类效果从而间接评价模型训练效果,并定性分析“全局景点”对模型的作用。实验结果表明,该模型对旅游文本的建模效果优于基准算法TF-IDF与隐含狄利克雷分布(LDA),且“全局景点”的引入对建模效果有明显的改善作用。最后通过景点关联图的方式对实验结果进行可视化展示。 相似文献