共查询到19条相似文献,搜索用时 93 毫秒
1.
2.
3.
《计算机应用与软件》2016,(11)
微博转发预测是研究信息传播的关键问题之一,对于舆情监控、广告投放、商业决策具有重要意义。用户兴趣、微博作者影响力及微博内容等信息均影响信息传播过程。转发行为预测的挑战性问题在于如何捕获更多有意义的影响因素以提高预测性能。提出基于混合特征学习的转发预测方法,该方法首先引入并分析了局部社会影响力特征、用户特征、微博内容特征的计算方法;接着,基于分类器建立预测模型;最后,比较了不同类型微博的转发预测效果。在新浪微博平台数据的实验结果表明,局部社会影响力特征、用户特征、微博内容特征都对转发预测有较大影响,其中微博内容特征的影响最大。随机森林预测效果最好,准确率达到83.1%;与朴素贝叶斯、逻辑回归、支持向量机模型相比,准确率平均提高约7.4%,最高提高约10.8%。另外,该方法对自然灾害、环境、审判、维权等类型的微博进行转发预测时,效果更加明显,说明这类事件转发的规律性更强。 相似文献
4.
随着网络的飞速发展,微博逐渐成为社交网络中信息传播及信息收集的重要平台,微博转发是微博信息传播的重要途径,研究微博转发问题对微博信息传播、微博营销、舆情监控有着极其重要的意义.影响微博转发的主要因素有:粉丝兴趣与微博文本的相似度,微博营销策略及用户粉丝数量的变化.以往的预测模型没有综合考虑这两方面因素,基于此,提出了一种基于循环神经网络的方法来对微博转发量级进行预测,首先利用SIM-LSTM模型构建微博转发趋势度,然后再利用TF-IDF构建粉丝兴趣和微博文本的相似度,最后通过神经网络模型来预测粉丝是否会转发该微博.实验结果表明本文提出的算法相对于其他预测算法F1评估值提高了近5%. 相似文献
5.
在全部微博内容中,由用户转发而产生的信息占有非常大的比例。同时,内容的转发也是微博中信息传播的主要途径。因此,用户的转发行为有着重要的研究价值,可应用于社交营销、微博检索、热点事件预测等领域中。该文中,我们通过分析所收集的大量真实的新浪微博数据,发现影响用户转发行为的一些因素: 微博作者、用户兴趣以及微博热度。基于这些发现,该文提出了一种新颖的基于LDA模型的方法,综合利用以上3个特征预测用户转发行为。为了对该方法进行评价,我们利用收集的大量的微博数据及对应的社交网络结构模拟真实用户环境。实验表明,该方法的性能优于目前最好的方法,F值比其他基线方法高出35%—45%。 相似文献
6.
针对目前微博转发行为预测具有的特征选择任意性、准确率不高的问题,提出了融合异常检测与随机森林的微博转发行为预测方法。首先,提取用户基本特征、博文基本特征、博文内容主题特征,并基于相对熵计算用户活跃度、博文影响力;其次,通过结合过滤式与封装式特征选择方法筛选出关键特征组;最后,融合异常检测与随机森林算法,依据筛选后的关键特征组进行微博转发行为预测,并利用袋外数据误差估计设置随机森林中的决策树和特征数。在真实新浪微博数据集上与基于逻辑回归、决策树、朴素贝叶斯、随机森林等算法的微博转发行为预测方法进行实验对比,结果表明所提方法的预测准确率(90.5%) 高于基准方法中最优的随机森林方法的预测准确率,同时验证了特征筛选方法的有效性。 相似文献
7.
网络论坛成为人们获取信息的重要途径,如果能够自动发现网络热点话题并且能够预测其发展趋势,对于政府调控舆论倾向、保持社会的和谐稳定都有着重要作用.论文主要讨论如何从论坛帖子中找出热点话题,并且预测它在一定时间内的关注度变化.在话题发现与跟踪方法的基础上,对论坛帖子进行文本聚类,得到话题簇,进而根据话题关注度的变换趋势,建立马尔可夫链,根据得到的转移概率矩阵,来预测近期出现相关话题的关注度的变化. 相似文献
8.
9.
10.
为了及时发现网络热点话题走向,提出基于数据挖掘技术的网络热点话题演化动态预测算法。首先运用基于块的单遍聚类算法,将网络热点话题划分成不同文本集,根据特征划分到不同块中,进行网络热点话题的数据挖掘,然后计算页面话题热度值,利用热度值描述报道获得的先后顺序,判断能否产生新的网络热点话题,实现网络热点话题预测。经实验验证算法网络热点话题动态预测运行时间少;热点话题预测漏检率低,可精准描述热度值变化趋势。 相似文献
11.
微博具有长度短、实时传播、结构复杂以及变形词多等特点,传统的向量空间模型(VSM)文本表示方法和隐含语义分析(LSA)无法很好的对其进行建模。提出了一种基于概率潜在语义分析(pLSA)和 K 均值聚类(Kmeans)的二阶段聚类算法,此外通过定义微博热度分析和排序,有效地支持微博热点话题发现。实验表明,此方法能有效地进行话题聚类并检测出热点话题。 相似文献
12.
话题演化分析是舆情监控的研究热点之一,面向微博热点话题进行演化分析,对于网络用户以及网络监管部门都有很重要的现实意义。针对在线词对主题模型(On-line Biterm Topic Model,OBTM)新旧主题混合、冗余词概率相对较高的问题,对OBTM进行改进,提出基于话题标签和先验参数的OBTM模型(Topic Labels and Prior Parameters OBTM,LPOBTM)。根据微博热点话题的话题标签,将微博文本集区分为含话题标签和不含话题标签的两类数据集,并设置不同的文档-主题先验参数;在前一时间片文档-主题概率分布的基础上,借鉴Sigmod函数对所有主题进行强度排名,从而优化当前时间片上主题-词分布的先验参数计算方法。实验结果表明,LPOBTM能够更准确地描述话题的内容演化情况,并且有更低的模型困惑度。 相似文献
13.
微博网络舆论的传播逐渐成为一种基于人际关系的网络传播。介绍了微博平台网络舆论的整体特征,通过图表展现了月度热门话题的网络舆论走向,指出了微博对网络舆论模式的改变,最后对微博所带来的主要问题进行了分析。 相似文献
14.
随着社交网络和互联网的飞速发展,产生了大量的微博短文本流数据。及时发现微博文本流中热点话题,对话题推荐和舆情监测等有重要作用。为了解决微博短文本特征稀疏问题,利用微博评论对微博进行特征扩展,提出了一种基于特征扩展的微博短文本流热点话题检测方法(Feature extension-based hot topic detection, FE-HTD)。首先利用评论用户的影响力以及评论文本的点赞数筛选评论文本,并使用词共现和词频-逆文档频率(Term frequency-inverse document frequency,TF-IDF)方法从选取的评论文本中抽取特征词完成对微博文本的特征扩展;然后计算微博文本流的词对速度、词对加速度,并根据点赞数、评论数计算微博文本强度,结合词对加速度与微博文本强度定义突发特征;最后,根据突发词对的速度确定可变长的热点话题窗口范围,通过聚类得到窗口中热点话题的主题结构。实验中,将所提算法与基于文本的话题检测(Text-based topic detection, T-TD)和基于突发词的话题检测(Burst words-based topic detection, BW-TD)进行对比实验。结果表明,本文算法FE-HTD准确率达76.4%,召回率达78.7%,与对比算法T-TD和BW-TD相比提高了10%。 相似文献
15.
随着全媒体时代的到来和社交网络的发展,流行度预测在舆情监测和数据话语权的争夺上开始发挥重要的作用。现有的流行度预测研究多集中于外文媒体,对以微博为代表的国内主流媒体进行流行度预测是一个新兴且具有挑战的方向。本文针对微博这一国内社交媒体平台进行研究,通过对微博内容及微博用户的特征分析,设计了多种流行度预测方案,同时,提出了一种基于XGBoost的微博流行度预测算法,将流行度预测问题转换为互动值档位分类问题,在分类式框架下将提取融合后的特征用于模型训练,可以较为准确地对有用户信息的微博的流行度情况进行预测。本文的算法在微博流行度预测数据集中得到验证,并且取得了准确率高达85.69%的优越效果。 相似文献
16.
微博作为当代生活中信息传播的重要平台,对其进行热点话题挖掘成为当今重要的研究方向之一。针对传统的热点话题发现方法在处理微博文本时存在文本表示缺乏语义信息、挖掘热点话题效果差等问题,本文提出一种基于频繁词集和BERT语义的文本双表示模型(Text dual representation model based on frequent word sets and BERT semantics, FWS-BERT),通过该模型计算加权文本相似度对微博文本进行谱聚类,进一步基于改进相似性度量的affinity propagation (AP)聚类算法进行微博话题挖掘,最后通过引入文献计量学中的H指数提出一种话题热度评估方法。实验表明,本文提出的方法在轮廓系数及Calinski-Harabasz(CH)指标值上均高于基于频繁词集的单一文本表示方法和K-means方法,并且能准确地对微博数据进行话题表示和热度评估。 相似文献
17.
18.
19.
在传统的K-means算法中,聚类结果很大程度依赖于随机选择的初始聚类中心点以及人工指定的k值.为了提高聚类精度,本文提出了利用最小距离与平均聚集度来对初始聚类中心点进行选取,将层次聚类CURE算法得到的聚簇数作为k值,从而使聚类精度得到提高.最后,将改进后的K-means算法应用到微博话题发现中,通过对实验结果分析,证明该算法提高了聚类结果精度. 相似文献