共查询到18条相似文献,搜索用时 62 毫秒
1.
针对目前微博转发行为预测具有的特征选择任意性、准确率不高的问题,提出了融合异常检测与随机森林的微博转发行为预测方法。首先,提取用户基本特征、博文基本特征、博文内容主题特征,并基于相对熵计算用户活跃度、博文影响力;其次,通过结合过滤式与封装式特征选择方法筛选出关键特征组;最后,融合异常检测与随机森林算法,依据筛选后的关键特征组进行微博转发行为预测,并利用袋外数据误差估计设置随机森林中的决策树和特征数。在真实新浪微博数据集上与基于逻辑回归、决策树、朴素贝叶斯、随机森林等算法的微博转发行为预测方法进行实验对比,结果表明所提方法的预测准确率(90.5%) 高于基准方法中最优的随机森林方法的预测准确率,同时验证了特征筛选方法的有效性。 相似文献
2.
3.
在全部微博内容中,由用户转发而产生的信息占有非常大的比例。同时,内容的转发也是微博中信息传播的主要途径。因此,用户的转发行为有着重要的研究价值,可应用于社交营销、微博检索、热点事件预测等领域中。该文中,我们通过分析所收集的大量真实的新浪微博数据,发现影响用户转发行为的一些因素: 微博作者、用户兴趣以及微博热度。基于这些发现,该文提出了一种新颖的基于LDA模型的方法,综合利用以上3个特征预测用户转发行为。为了对该方法进行评价,我们利用收集的大量的微博数据及对应的社交网络结构模拟真实用户环境。实验表明,该方法的性能优于目前最好的方法,F值比其他基线方法高出35%—45%。 相似文献
4.
预防自然灾害并采取有效的措施进行防护,能有效保障人类生命安全并减少经济损失。在应对森林火灾时,如果能准确预测火灾的毁坏面积,政府和消防人员就能够采取有效的救灾措施控制住灾情。基于此,选取加州大学尔湾分校(University of California Irvine,UCI)网站的森林火灾统计数据,采用随机森林和XGBoost两种集成算法对森林火灾毁坏面积进行预测,并比较两种算法的优势和预测效果。经比较发现,随机森林算法不需要对样本特征进行预筛选,而是通过检测各特征值之间的相关性,平衡误差并进行不断优化,寻找出对火灾面积影响较大的因素。因此,随机森林算法更适用于处理特征值较多的森林火灾数据集。 相似文献
5.
随着以微博为代表的在线社交网站的发展,微博用户之间形成了复杂的社会网络。针对微博社会网络,研究了影响微博用户之间关系形成的各种因素,提出了基于链路预测的微博用户关系分析模型。首先分析了网络结构特征在微博社会网络中的作用,同时针对微博社会网络的特点,引入微博属性特征,构造基于随机森林的链路预测模型,并将模型应用于新浪微博用户数据集,进行微博用户关系的训练预测,通过比较引入微博属性特征前后的预测性能以及特征的重要性分布,分析了各类特征对微博用户关系形成的影响,揭示了除传统的网络结构特征外,微博属性特征对微博用户关系的形成具有重要的影响力。 相似文献
6.
针对微博转发预测方法研究中的数据集不平衡问题,提出了一种融合过采样技术和随机森林(RF)算法的微博转发行为预测方法。首先,定义了个体信息、社交关系和微博主题3类与微博转发行为相关的特征,并基于信息增益算法实现了关键特征选取;其次,综合微博特征数据的特点来改进少数类样本合成过采样技术(SMOTE),对原始数据集进行非参数概率分布估计,并根据近似概率分布对数据集进行过采样处理,从而使正反例数据量达到平衡;最后,利用随机森林算法,依据微博转发关键特征进行分类器训练,并利用袋外(OOB)数据误差估计来分析和设置随机森林算法的相关参数。通过与基于决策树(DT)、支持向量机(SVM)、朴素贝叶斯(NB)和随机森林等算法的微博转发预测方法进行对比,所提方法整体性能优于基准方法中性能最优的SVM方法,召回率提高了8%,F值提高了5%。实验结果表明,所提方法在实际应用中能够有效提高微博转发行为预测的准确率。 相似文献
7.
《计算机应用与软件》2016,(11)
微博转发预测是研究信息传播的关键问题之一,对于舆情监控、广告投放、商业决策具有重要意义。用户兴趣、微博作者影响力及微博内容等信息均影响信息传播过程。转发行为预测的挑战性问题在于如何捕获更多有意义的影响因素以提高预测性能。提出基于混合特征学习的转发预测方法,该方法首先引入并分析了局部社会影响力特征、用户特征、微博内容特征的计算方法;接着,基于分类器建立预测模型;最后,比较了不同类型微博的转发预测效果。在新浪微博平台数据的实验结果表明,局部社会影响力特征、用户特征、微博内容特征都对转发预测有较大影响,其中微博内容特征的影响最大。随机森林预测效果最好,准确率达到83.1%;与朴素贝叶斯、逻辑回归、支持向量机模型相比,准确率平均提高约7.4%,最高提高约10.8%。另外,该方法对自然灾害、环境、审判、维权等类型的微博进行转发预测时,效果更加明显,说明这类事件转发的规律性更强。 相似文献
8.
9.
随着网络的飞速发展,微博逐渐成为社交网络中信息传播及信息收集的重要平台,微博转发是微博信息传播的重要途径,研究微博转发问题对微博信息传播、微博营销、舆情监控有着极其重要的意义.影响微博转发的主要因素有:粉丝兴趣与微博文本的相似度,微博营销策略及用户粉丝数量的变化.以往的预测模型没有综合考虑这两方面因素,基于此,提出了一种基于循环神经网络的方法来对微博转发量级进行预测,首先利用SIM-LSTM模型构建微博转发趋势度,然后再利用TF-IDF构建粉丝兴趣和微博文本的相似度,最后通过神经网络模型来预测粉丝是否会转发该微博.实验结果表明本文提出的算法相对于其他预测算法F1评估值提高了近5%. 相似文献
10.
目前的地理信息系统已经趋于完善,但仍受到许多因素的制约.比如,希望通过大量的地理信息数据建立模型,输入一些未知的地理信息,就可以在一定程度上预测目标位置时,现有的技术会遇到许多挑战.本文针对这一问题,提出通过将机器学习中的随机森林算法应用于地址文本,实现一定程度上的地理位置(经纬度)的预测. 相似文献
11.
12.
13.
刘程煜;马勤;周艳莲;居为民 《遥感技术与应用》2025,40(3):557-567
森林年龄显著影响其碳汇的变化趋势,降低区域和全球森林碳汇估算的不确定性需要森林年龄分布数据。森林年龄与冠层高度紧密联系,近年来高分辨率森林冠层高度遥感数据不断产生,为森林年龄高分辨率制图创造了条件。但是,基于森林高度遥感数据的温带森林年龄高分辨率制图的可行性尚不清楚。因此,研究基于森林高度遥感数据进行温带森林年龄的估算及制图,对提升区域碳汇动态监测精度、优化森林管理策略及深化温带森林生态系统固碳机制认知具有重要意义。实验以黑龙江省为研究区,利用落叶阔叶林、常绿针叶林、落叶针叶林和混交林共1 821个样地的数据,确定了描述不同森林类型冠层高度随年龄变化的最优生长方程,对样地数据进行了时间订正;随机选择70%的样地观测数据用于模型训练、其余的30%样本用于模型验证,以基于激光雷达数据生成的森林高度和环境因子(包括生长季长度、最高月平均气温和坡度)为自变量,分别采用随机森林(RF)、支持向量机(SVM)和LightGBM方法构建森林年龄估算模型;遴选最优模型,进行研究区2020年森林年龄30 m分辨率制图,分析森林年龄变化特征。结果表明:对于建模样本和验证样本,RF模型的R2最高(0.77)而均方根误差(RMSE)最低(10.20),LightGBM模型次之,SVM模型R2最低(0.63)而RMSE最高(11.85)。采用RF模型估算的森林年龄存在明显的空间差异,大兴安岭地区和伊春市的森林年龄显著高于其它地区,黑河市的森林年龄较低;落叶针叶林的平均年龄最高,其次为常绿针叶林和混交林,落叶阔叶林的平均年龄最低;研究区森林平均年龄为73年,其中75%的森林年龄为40~100年,17%的森林年龄大于100年,8%的森林年龄低于40年。研究表明:将森林高度遥感数据与环境因子结合,采用机器学习方法可以有效估算中国温带森林的年龄,将为区域和全球森林年龄的高分辨率遥感制图提供参考。 相似文献
14.
陆地生态系统碳收支是全球碳循环研究的重要指标,也是气候变化的重要参数。针对该指标估测的不确定性,基于陆地生态系统通量观测研究网络的实测碳通量数据及遥感卫星观测数据产品,利用机器学习方法进行建模研究。研究选用随机森林算法自动从高质量的星—地训练数据集中学习特征、挖掘数据中的隐含信息以及时序间依赖关系的差异,建立了基于随机森林算法的碳收支参数GPP(Gross Primary Production)、NEP(Net Ecosystem Production)估算模型,并选择标准指标利用验证数据集对模型进行了客观评价。结果分析表明:与MODIS GPP产品相比,该方法在估算精度上有了提高,其中落叶阔叶林预测结果最优,决策系数为R2为0.82,均方根误差为1.93 gCm-2d-1,在其他植被类型上也明显优于传统光能利用率模型产品,更接近于地面通量观测数据。基于相同方法建立的NEP模型也得到了较好的估测结果,落叶阔叶林预测模型的输出结果与通量塔获得的NEP相关关系R2为0.70,RMSE=1.75 g C m-2d-1。GPP和NEP模型精度差异也表明,在进行机器学习建模时,训练数据集自变量的... 相似文献
15.
近年来,社交网络数据挖掘作为物理网络空间数据挖掘的一大热点,目前在用户行为分析、兴趣识别、产品推荐等方面都取得了令人可喜的成果。随着社交网络商业契机的到来,出现了很多恶意用户及恶意行为,给数据挖掘的效果产生了极大的影响。基于此,提出基于用户行为特征分析的恶意用户识别方法,该方法引入主成分分析方法对微博网络用户行为数据进行挖掘,对各维度特征的权重进行排序,选取前六维主成分特征可以有效识别恶意用户,主成分特征之间拟合出的新特征也能提升系统的识别性能。实验结果表明,引入的方法对微博用户特征进行了有效的排序,很好地识别出了微博社交网络中的恶意用户,为其他方向的社交网络数据挖掘提供了良好的数据清洗技术。 相似文献
16.
Jochen Kruppa Alexandra Schwarz Gerhard Arminger Andreas Ziegler 《Expert systems with applications》2013,40(13):5125-5131
Consumer credit scoring is often considered a classification task where clients receive either a good or a bad credit status. Default probabilities provide more detailed information about the creditworthiness of consumers, and they are usually estimated by logistic regression. Here, we present a general framework for estimating individual consumer credit risks by use of machine learning methods. Since a probability is an expected value, all nonparametric regression approaches which are consistent for the mean are consistent for the probability estimation problem. Among others, random forests (RF), k-nearest neighbors (kNN), and bagged k-nearest neighbors (bNN) belong to this class of consistent nonparametric regression approaches. We apply the machine learning methods and an optimized logistic regression to a large dataset of complete payment histories of short-termed installment credits. We demonstrate probability estimation in Random Jungle, an RF package written in C++ with a generalized framework for fast tree growing, probability estimation, and classification. We also describe an algorithm for tuning the terminal node size for probability estimation. We demonstrate that regression RF outperforms the optimized logistic regression model, kNN, and bNN on the test data of the short-term installment credits. 相似文献
17.
18.
Microblogging on sites like Twitter is a growing and popular trend among young people. Apparently, some users of these microblogs exhibit addiction-like symptoms. Until recently, there was no psychometric scale to measure the excessive use of Twitter. The development of the Microblog Excessive Use Scale (MEUS) in 2014 proved a positive step in assessing this phenomenon. In the current study, we employed the MEUS to assess excessive use of Twitter in a sample of 256 college students (53.1% female; mean age 21.4 years) in the UK. Confirmatory factor analysis (CFA), calculation of criterion-related and concurrent validity and reliability were performed to assess the scale's psychometric properties. The MEUS was found to be a valid instrument for assessing excessive use of Twitter among UK college students. In addition, we found that real life social interaction was negatively associated with excessive use of Twitter and this relationship was mediated by loneliness. We compared our results with results from a previous study in which the MEUS was developed and noted some interesting differences, which might be explained by cultural differences between samples in the two studies. 相似文献