共查询到20条相似文献,搜索用时 218 毫秒
1.
随着信息技术的快速发展,大量的文本数据产生、被收集和存储.主题模型是文本分析的重要工具之一,被广泛地应用于分析大规模文本集.然而,主题模型通常无法直观而有效地结合用户的领域专业知识对模型结果进行修正.针对这一问题,提出了一个交互式可视分析系统,帮助用户对主题模型进行交互修正.首先对层次狄利克雷过程进行了改进,使其支持单词约束;然后,使用矩阵视图对主题模型进行展示,并使用语义相关的词云布局帮助用户寻找单词约束,用户通过添加单词约束迭代优化主题模型;最后,通过案例分析及用户研究来评价该系统的可用性. 相似文献
2.
张怡邵裕东张加万 《计算机辅助设计与图形学学报》2017,(12):2265-2272
传统新闻媒体和新兴社交媒体对同一事件的观点有差异,且互相影响.为了有效地分析不同来源的新闻事件评论主题的异同以及随着时间推移互相影响的转移趋势,提出一套可视分析方法.首先提出一个基于主题分析的信息传递模型,使用LDA模型提取文本主题,通过计算主题的内容相关性和时间相关性得到主题间的传递关系;然后使用基于桑基图和时间线技术相结合的方法对主题传递模型进行可视化,并提供主题层级视图、关键词词距视图和原数据视图帮助用户理解主题;最后研发了可视分析系统原型.使用"韩国部署萨德事件"这一案例,验证了系统的可用性和有效性. 相似文献
3.
随着微博的日趋流行与广泛使用,新浪等微博网站已经成为海量信息的来源,虽然传统的文本主题挖掘方法已经得到广泛的应用研究,但对于微博这种特殊结构的文本,传统的挖掘算法不能很好地对其进行研究。为了弥补目前微博平台主题挖掘方法的不足,以及考虑到微博信息的稀疏性,多维性等特点,提出有针对性的预处理方法,将用户微博数据与AT模型结合,通过吉布斯采样进行微博主题挖掘,对作者主题进一步提取得到用户兴趣。通过在真实数据集上的实验,以及与LDA模型对比,证明该模型能有效得到微博主题。 相似文献
4.
微博情感分析是社交媒体挖掘中的重要任务之一,在个性化推荐、舆情分析等方面具有重要的理论和应用价值.挖掘性能良好且可同步进行文档主题分析与情感分析的主题情感模型近来在以微博为代表的社交媒体情感分析中备受关注。然而,绝大多数现有主题情感模型都简单地假设不同微博的情感极性是互相独立,这与微博生态的现实状况不相一致的,从而导致这些模型无法对用户的真实情感进行有效建模。基于此,本文综合考虑了微博用户相互关联的事实,提出基于LDA和微博用户关系的主题情感模型SRTSM,该模型在LDA中加入情感层与微博用户关系参数,利用微博用户关系与微博主题学习微博的情感极性。新浪微博真实数据集上的大量实验表明,与代表性算法JST、Sentiment-LDA与DPLDA相比较,SRTSM模型能对用户真实情感与讨论主题进行更加有效的分析建模. 相似文献
5.
基于MB-LDA模型的微博主题挖掘 总被引:5,自引:0,他引:5
随着微博的日趋流行,Twitter等微博网站已成为海量信息的发布体,对微博的研究也需要从单一的用户关系分析向微博本身内容的挖掘进行转变.在数据挖掘领域,尽管传统文本的主题挖掘已经得到了广泛的研究,但对于微博这种特殊的文本,因其本身带有一些结构化的社会网络方面的信息,传统的文本挖掘算法不能很好地对它进行建模.提出了一个基于LDA的微博生成模型MB-LDA,综合考虑了微博的联系人关联关系和文本关联关系,来辅助进行微博的主题挖掘.采用吉布斯抽样法对模型进行推导,不仅能挖掘出微博的主题,还能挖掘出联系人关注的主题.此外,模型还能推广到许多带有社交网络性质的文本中.在真实数据集上的实验表明,MB-LDA模型能有效地对微博进行主题挖掘. 相似文献
6.
接警日志包含时间、空间和案件描述信息,属于非结构时空数据.与时空社交媒体相比,接警日志的数据项之间存在较少的联系,数据项之间不能形成复杂网络关系,在挖掘其数据模式时难以提供有价值的线索,因此,其分析更加依赖于其中的语义挖掘和语义时空模式探索.针对这一问题,提出了一个可视分析框架支持对大规模非结构接警日志时空模式的交互探索.首先,提出了一种基于主题模型集成的方法,实现从异构文本中抽取主题;其次,该框架包含一个数据立方体,实现快速响应用户的查询请求;第三,设计并实现了一个可视化交互系统,支持对数据立方体的可视化交互探索.最后,使用国内某城市真实接警日志进行实验,找到的丰富的模式和主题预测准确性证明了方法的有效性. 相似文献
7.
微博的广泛使用产生了大量微博数据,这些数据中包含有大量有价值的信息。然而由于微博信息的文本内容简短且其本身带有一些结构化的社会网络方面的信息,传统的主题模型建模方法并不能十分有效地处理微博信息。根据微博信息的特点,提出一个基于Latent Dirichlet Allocation(LDA)的微博生成模型MRT-LDA,利用微博之间的转发、对话、支持(赞)和评论等关系来计算微博之间的相关性,综合考虑微博之间的相关性和同一用户微博信息间的关系,来辅助对微博的主题进行挖掘。采用吉布斯抽样法对模型进行推导,结果表明该模型能有效地对微博数据进行文本挖掘。 相似文献
8.
9.
10.
潜在狄利克雷分配(LDA)主题模型可用于识别大规模文档集中潜藏的主题信息,但是对于微博短文本的应用效果并不理想。为此,提出一种基于LDA的微博用户模型,将微博基于用户进行划分,合并每个用户发布的微博以代表用户,标准的文档-主题-词的三层LDA模型变为用户-主题-词的用户模型,利用该模型进行用户推荐。在真实微博数据集上的实验结果表明,与传统的向量空间模型方法相比,采用该方法进行用户推荐具有更好的效果,在选择合适的主题数情况下,其准确率提高近10%。 相似文献
11.
12.
随着微博的日趋流行,新浪微博已成为公众获取和传播信息的重要平台之一,针对微博数据的话题挖掘也成为当前的研究热点。提出一个面向大规模微博数据的话题挖掘方法。首先对大规模微博数据进行分析,基于Bloom Filter算法对数据进行去重处理,针对微博的特有结构,对文本进行预处理,提出改进的LDA主题模型Social Network LDA(SNLDA),采用吉布斯采样法进行模型推导,挖掘出微博话题。实验结果表明,方法能有效地从大规模微博数据中挖掘出话题信息。 相似文献
13.
14.
基于特定领域的中文微博热点话题挖掘系统BTopicMiner 总被引:1,自引:0,他引:1
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。 相似文献
15.
基于词共现图的中文微博新闻话题识别 总被引:2,自引:0,他引:2
针对传统的话题检测算法主要适用于新闻网页和博客等长文本信息,而不能有效处理具有稀疏性的微博数据,给出一种基于词共现图的方法来识别微博中的新闻话题.该方法首先在微博数据预处理之后,综合相对词频和词频增加率2个因素抽取微博数据中的主题词.然后根据主题词间的共现度构建词共现图,把词共现图中每个不连通的簇集看成一个新闻话题,并使用每个簇集中包含信息量较大的几个主题词来表示微博新闻话题.最后在微博数据集上进行实验,实现了对微博中新闻话题的识别,验证了该方法的有效性. 相似文献
16.
话题演化分析是舆情监控的研究热点之一,面向微博热点话题进行演化分析,对于网络用户以及网络监管部门都有很重要的现实意义。针对在线词对主题模型(On-line Biterm Topic Model,OBTM)新旧主题混合、冗余词概率相对较高的问题,对OBTM进行改进,提出基于话题标签和先验参数的OBTM模型(Topic Labels and Prior Parameters OBTM,LPOBTM)。根据微博热点话题的话题标签,将微博文本集区分为含话题标签和不含话题标签的两类数据集,并设置不同的文档-主题先验参数;在前一时间片文档-主题概率分布的基础上,借鉴Sigmod函数对所有主题进行强度排名,从而优化当前时间片上主题-词分布的先验参数计算方法。实验结果表明,LPOBTM能够更准确地描述话题的内容演化情况,并且有更低的模型困惑度。 相似文献
17.
微博作为新兴的社交媒体平台,越来越多的网民选择在微博上获取与分享自己感兴趣的信息。在微博日均千万级的大数据面前,分析网民对某一事件的观点与态度是一件非常有意义的工作。调研中发现,大众对单个事件的不同话题存在不同的情感分布。针对这一现象,该文提出了使用无监督学习的层次聚类排序方法和半监督学习的微博话题纠正算法两种方法,进行事件话题及其相关微博的挖掘。最后利用情感分析的相关技术,达到对相关微博进行情感分布统计及其原因分析的目的。通过在人工构建的数据集上测试,结果表明该方法能够准确分析事件情感分布的原因。 相似文献
18.
基于动态主题模型融合多维数据的微博社区发现算法 总被引:1,自引:0,他引:1
随着微博用户的不断增加,微博网络已经成为用户进行信息交流的平台.针对由于博文长度受限,传统的社区发现算法无法有效解决微博网络的稀疏性等问题,提出了DC-DTM算法.DC-DTM算法首先将微博网络映射为有向加权网络,网络中边的方向反映结点之间的关注关系,利用提出的DTM模型计算出结点之间的语义相似度,并将其作为节点间连边的权重.DTM模型是一种微博主题模型,该模型不仅能够挖掘博客的主题分布,而且能计算出某一主题中用户的影响力大小.其次,利用提出的复杂度低的标签传播算法WLPA进行微博网络的社区发现.该算法的初始化阶段将影响力大的用户结点作为初始结点,标签按照结点的影响力从大到小进行传播,克服了传统标签传播算法的逆流现象,提高了标签传播算法的稳定性.在真实数据上的实验表明,DTM模型能很好地对微博进行主题挖掘,DC-DTM算法能够有效地挖掘出微博网络的社区. 相似文献
19.
如何从海量、嘈杂的微博文本流中及时发现负面情感突发话题对于突发事件的应急响应和处置至关重要,而传统的突发话题检测方法往往忽略了负面情感突发话题与非负面情感突发话题之间的区别,为此提出了一种面向微博文本流的负面情感突发话题检测(NE-BTD)算法。首先,将微博中的主题词对的加速度和负面情感强度变化率作为负面情感突发话题的判定依据;然后,利用突发词对的速度确定负面情感突发话题的窗口范围;最后,使用一种基于吉布斯采样的狄利克雷多项式混合模型(GSDMM)聚类算法得到窗口中负面情感突发话题的主题结构。在实验中将所提出的NE-BTD算法与已有的一种基于情感方法的话题检测(EBM-TD)算法进行对比,结果表明所提出的NE-BTD算法相较EBM-TD算法准确率和召回率至少提高了20%,并且可以至少提前40 min检出负面情感突发话题。 相似文献
20.
如何从海量、嘈杂的微博文本流中及时发现负面情感突发话题对于突发事件的应急响应和处置至关重要,而传统的突发话题检测方法往往忽略了负面情感突发话题与非负面情感突发话题之间的区别,为此提出了一种面向微博文本流的负面情感突发话题检测(NE-BTD)算法。首先,将微博中的主题词对的加速度和负面情感强度变化率作为负面情感突发话题的判定依据;然后,利用突发词对的速度确定负面情感突发话题的窗口范围;最后,使用一种基于吉布斯采样的狄利克雷多项式混合模型(GSDMM)聚类算法得到窗口中负面情感突发话题的主题结构。在实验中将所提出的NE-BTD算法与已有的一种基于情感方法的话题检测(EBM-TD)算法进行对比,结果表明所提出的NE-BTD算法相较EBM-TD算法准确率和召回率至少提高了20%,并且可以至少提前40 min检出负面情感突发话题。 相似文献