首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
及时掌握大众关心的热点话题是企业进行商业创新和商务营销的重要前提。现有方法大都依赖于非结构化数据的处理或反复遍历样本集,使算法复杂性较高。文中从话题的统计特性出发,提出建立在结构化数据上的非参数方法。首先对单个话题构建表征话题传播扩散程度和关注聚焦程度的热度曲线;然后对这些形态丰富的热度曲线进行分类建模,得到不同类别曲线的共性特征及发展规律;最后使用分类模型上的加权投票规则预测新话题是否会发展成为热门话题。基于新浪微博平台进行数据收集和实验,结果表明该方法数据结构简单、效果良好、复杂度低且易于控制。  相似文献   

2.
针对现有分布式文件系统中静态副本管理机制的不足,提出一种基于布谷鸟搜索优化马尔可夫模型的算法进行文件热度预测.根据文件最近的访问特征采用无偏灰色模型预测下一时刻文件访问热度,利用布谷鸟搜索优化马尔可夫模型,对预测结果进行误差修正,根据新陈代谢思想对预测序列进行等维处理,通过最新数据趋势得到预测结果.实验结果表明,MAPE值达到3.08%,与其它模型相比,MAPE值平均降低了2.26%.该方法对文件热度预测达到了较好结果,为文件副本的动态管理提供依据.  相似文献   

3.
基于概率主题模型的标签预测   总被引:1,自引:1,他引:1  
袁柳  张龙波 《计算机科学》2011,38(7):175-180
充分利用用户自定义标签信息,是理解Web资源语义,提高Web应用智能程度的重要途径。针对资源标签分派中大量存在的信息不完整、不一致的现象,建立基于用户标记行为特征的概率主题模型,利用概率主题模型实现对标记信息不完整资源的标签预测。根据每个资源所对应的标签的统计特征,可产生不同形式的标签文档,通过分析标签文档所生成主题的性能,确定适合于特定数据集的标签文档形式;利用同一主题内词汇间的高度相关性,设计合理的预测标签排序方法,从而实现对标记信息不完整资源的标签预测以及标签语义不一致现象的检测。在数据集DeliciousT 140和Wikilo+上的测试表明,所提方法能有效实现标签预测,并可提高信息检索的性能。  相似文献   

4.
随着互联网的发展,有效地对网络舆情进行监管和引导对社会的和谐稳定具有重要意义,网络事件的热度预测是舆情监管的重要组成部分。针对传统方法在预测的过程中忽视了事件时间序列中蕴含的时态信息和关联性,提出了一种基于EKSC算法的网络热点事件热度预测模型。该模型使用EKSC算法对每类已知网络舆情事件的时间序列进行聚类,并构建类模型库。对待预测事件已知的热度时间序列进行缩放变化,并使用最小二乘法选取类模型库中均方误差和最小的模型对该事件进行预测。实验表明,该方法能够对网络热点事件的热度进行有效的预测。  相似文献   

5.
软件缺陷预测通常针对代码表面特征训练预测模型并对新样本进行预测,忽视了代码背后隐藏的不同技术方面和主题,从而导致预测不准确。针对这种问题,提出了一种基于主题模型的软件缺陷预测方法。将软件代码库视为不同技术方面和主题的集合,不同的主题或技术方面有不同的缺陷倾向。采用LDA主题模型对不同主题及其缺陷倾向进行建模,根据建模结果计算主题度量,并将传统度量方式和主题度量结合进行模型训练和预测。实验结果显示,该方法相对传统的软件缺陷预测技术有高的准确性,并且可以在软件演化中保证模型相对稳定,可以适用于各种缺陷预测任务。  相似文献   

6.
在全部微博内容中,由用户转发而产生的信息占有非常大的比例。同时,内容的转发也是微博中信息传播的主要途径。因此,用户的转发行为有着重要的研究价值,可应用于社交营销、微博检索、热点事件预测等领域中。该文中,我们通过分析所收集的大量真实的新浪微博数据,发现影响用户转发行为的一些因素: 微博作者、用户兴趣以及微博热度。基于这些发现,该文提出了一种新颖的基于LDA模型的方法,综合利用以上3个特征预测用户转发行为。为了对该方法进行评价,我们利用收集的大量的微博数据及对应的社交网络结构模拟真实用户环境。实验表明,该方法的性能优于目前最好的方法,F值比其他基线方法高出35%—45%。  相似文献   

7.
近来,基于观测变量的因果模型辨识受到了较多关注。一般使用线性无环因果模型对数据生成过程建模,而实际上,许多因果模型包含非线性关系,使用纯线性方法求解是无效的。将线性模型泛化为非线性模型,提出一种两步骤的辨识算法,首先使用特征选择算法获得d分离等价类,然后使用非线性成对独立性测试为图中的边标注因果方向。实验结果验证了该算法的有效性,并表明其优于其他算法。  相似文献   

8.
数据之间存在相互引用关系,在进行数据开发时,通常存在一些具有高热度的数据,此类数据被其他数据大量引用,它们的缺陷往往会给整个大数据平台产出的数据结果带来极大影响。因此,对高热度数据进行预测并予以相应保护至关重要。面向基于数据热度的数据分级治理需求,提出一种采用数据血缘的数据热度预测方法。首先通过构建数据系统中的数据血缘捕获数据节点之间的引用关系;然后,提取数据血缘的时间和结构特征,并采用图卷积网络(GCN)进行数据血缘图特征的学习;最后,提出一种数据血缘传播趋势分层读出的方法读出图特征,对数据热度进行预测。在浙江中烟营销系统数据集ZJZY-SL和高能物理现象学相关论文引文数据集(HEP-PH)上的实验结果表明,相较于DeepCCP等方法,所提方法的识别准确率分别提升7.64、2.88个百分点,平均F1分别提升4.7、4.34个百分点。所提方法能充分挖掘数据在被引用早期的数据血缘特征,并预测数据节点未来的热度。  相似文献   

9.
因果自回归流模型已经在非独立噪声等场景的因果方向推断问题上取得了一定的进展,但在多个结点的场景下仍存在全局结构搜索带来的准确度低和计算时间复杂度高的问题。面向非时序观察数据设计一种两阶段因果结构学习算法。在第一阶段,基于观测数据的条件独立性,对完全无向图通过条件独立性检验得到基本的因果骨架;在第二阶段,基于因果自回归流模型,通过标准化流的方法计算骨架中每条无向边在不同方向上的边缘似然概率,进而通过比较边缘似然概率进行因果方向推断。实验结果表明:该算法在多组不同参数生成的仿真因果结构数据集上均有较好的表现,与现有的主流因果结构学习算法相比,F1值平均提升15%~28%;在真实因果结构数据集实验中,该算法能够较为完整准确地学习到变量间的因果关系,与主流的因果结构学习算法相比,F1值平均提升28%~48%,具有更强的鲁棒性。  相似文献   

10.
异常处方指的是医生为患者所开具的存在异常的处方。医疗处方中出现异常,如滥用药或者开错药等,会影响患者的治疗效率,甚至造成严重的后果。由于一些主观或者客观原因,医生总会开具一些异常处方。检测出这些异常处方能够提升患者就医效率,减少社会医疗成本,并且对药物滥用、多开药、错开药的有效管理等都有着重要意义。为此,提出了一种基于扩展主题模型的异常处方检测方法。该方法能够自动地从大量处方数据中检测出异常处方,并且对于每一个新的处方,该方法都能够判断其诊断和用药是否匹配,进而判断其是否正常。与其他异常检测算法相比,该方法具有更广泛的应用,不仅可以在医疗领域中使用,以检测异常处方,还可以在其他领域中使用,以检测其他特征之间的匹配关系异常。该方法已经得到了实现,并在真实的处方数据集中得到了验证。  相似文献   

11.
社交网络中的消息流行度预测问题对于信息推荐和病毒式营销等应用具有重要意义。该文提出了一种基于传播模拟的消息流行度预测方法,首先使用最大熵模型学习并预测用户转发消息的概率,然后使用独立级联传播模型在真实的社会网络上模拟消息的传播过程,从而完成消息流行度的预测。该方法的优点在于更充分的利用了社会网络的结构和用户特征信息。该文在Twitter数据集上的实验结果表明,相对于基准方法,该文提出的方法具有更高的准确率和稳定性。  相似文献   

12.
社交网络中消息的流行度预测问题在很多应用领域都有着重要意义。传统的流行度预测方法包括基于特征的方法和基于点过程的方法。基于点过程的方法无法利用历史消息的信息,而基于特征的方法则使用一个统一的模型来对所有的消息进行预测,没有考虑消息的特异性。因此,该文提出了一种基于相似消息的流行度预测方法。对于待预测微博,我们从历史消息选取出与之最相似的前K条消息来进行预测。在计算消息相似度时,我们借助了文档建模领域的LDA模型来学习消息的表示。在数据集上的实验结果表明,该方法可以有效发现在传播模式上与待预测消息相似的历史消息,并在流行度预测任务上取得了比对比模型更好的预测效果。  相似文献   

13.
在社会网络话题模型中,一些频繁出现的单词往往出现在不同的话题中。用户往往对这些单词感兴趣,因而分析时不能省略,这给话题分析带来了严重的挑战。为了解决这一问题,本文显示的对话题模型中的节点的流行性进行建模,提出了一种考虑节点重要性的LDA社会网络话题模型。在该模型中,本文提出了流行性组件的概念,并提出了一种包含了流行性组件的扩展话题模型。通过实验结果表明,本文提出的包含流行性组件的扩展话题模型具有更好的预测能力,其预测结果的准确性明显优于现有的相关研究。  相似文献   

14.
计算机技术和网络的发展使得数据呈爆炸式的涌现,社交媒体不断融入到人们的生活中,社会网络分析已成为研究的热点。随着大数据时代的到来,对社交网络链接算法研究产生巨大影响,原有的基于网络结构的预测方法已经渐渐不适应现状。因此,提出了一种基于主题模型的社交网络链接预测方法。首先以微博社交网络为数据源,将实验网络分为测试集和训练集;其次利用主题模型得到用户的主题特征,结合命名实体集和用户联系特征集合得到用户的兴趣特征相似性度量,加上网络结构相似性从而得到用户节点相似度,进而对社交网络链接进行预测;最终使用链接预测最常用的评价体系AUC来评价链接预测方法的效果。通过实验验证,该方法的预测准确率更高。  相似文献   

15.
在线社交网络中的消息流行度预测研究,对推荐、广告、检索等应用场景都具有非常重要的作用.近年来,深度学习的蓬勃发展和消息传播数据的积累,为基于深度学习的流行度预测研究提供了坚实的发展基础.现有的流行度预测研究综述,主要是围绕传统的流行度预测方法展开的,而基于深度学习的流行度预测方法目前仍未得到系统性地归纳和梳理,不利于流...  相似文献   

16.
针对流媒体的流行度预测问题,提出一种基于视频特征及历史数据的流行度预测模型。首先,根据视频特征及在社交网络中的影响力,使用K-近邻(KNN)算法对视频的流行程度进行预测。然后,基于流行程度的预测结果,结合自回归滑动平均(Autoregressive Moving Average,ARMA)模型对视频的点播量进行预测。最后,通过爬取豆瓣电影及新浪微博数据,对模型进行试验。结果表明,与朴素贝叶斯分类器及ARMA模型相比,本文模型的召回率(recall)明显较高,平均平方根误差(RMSE)降低了约20%。  相似文献   

17.
随着全媒体时代的到来和社交网络的发展,流行度预测在舆情监测和数据话语权的争夺上开始发挥重要的作用。现有的流行度预测研究多集中于外文媒体,对以微博为代表的国内主流媒体进行流行度预测是一个新兴且具有挑战的方向。本文针对微博这一国内社交媒体平台进行研究,通过对微博内容及微博用户的特征分析,设计了多种流行度预测方案,同时,提出了一种基于XGBoost的微博流行度预测算法,将流行度预测问题转换为互动值档位分类问题,在分类式框架下将提取融合后的特征用于模型训练,可以较为准确地对有用户信息的微博的流行度情况进行预测。本文的算法在微博流行度预测数据集中得到验证,并且取得了准确率高达85.69%的优越效果。  相似文献   

18.
王勇  王超  程凯 《计算机系统应用》2018,27(12):227-233
为更深入挖掘用户位置信息,本文从位置语义相似性角度挖掘用户特征.利用LDA算法对用户签到信息进行位置主题建模,采用Gibbs采样算法计算LDA模型中的分布函数,并根据这些分布提出了基于签到地点语义的用户相似性特征向量.利用有监督的机器学习算法,综合LBSN的网络结构信息、签到地点信息、地点语义信息得到多维相似性特征向量来进行链接预测.在Gowalla数据集上的实验结果表明,相较于传统的链接预测算法,将基于签到信息的多个相似性特征作为辅助信息的链接预测算法显著提高了LBSN链接预测的性能.  相似文献   

19.
贺亮  李芳 《中文信息学报》2012,26(2):109-116
自动挖掘科技文献话题,总结发展趋势及最新研究动态,有助于科技工作者的研究。该文提出一种话题发现和趋势分析的方法,该方法首先利用LDA话题模型抽取科技文献的话题,然后计算话题的强度和影响力,最后针对热门和冷门话题以及影响力高和影响力低的话题,进行了趋势分析。该文提出的话题强度和影响力计算方法,可以针对任何文集。对ACL 论文集的实验,显示了计算语言学领域过去的发展状况。和其他方法的对比实验,也验证了该文提出的话题强度和影响力的计算方法是正确和可行的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号