首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
师彦文  王宏杰 《计算机科学》2017,44(Z11):98-101
针对不平衡数据集的有效分类问题,提出一种结合代价敏感学习和随机森林算法的分类器。首先提出了一种新型不纯度度量,该度量不仅考虑了决策树的总代价,还考虑了同一节点对于不同样本的代价差异;其次,执行随机森林算法,对数据集作K次抽样,构建K个基础分类器;然后,基于提出的不纯度度量,通过分类回归树(CART)算法来构建决策树,从而形成决策树森林;最后,随机森林通过投票机制做出数据分类决策。在UCI数据库上进行实验,与传统随机森林和现有的代价敏感随机森林分类器相比,该分类器在分类精度、AUC面积和Kappa系数这3种性能度量上都具有良好的表现。  相似文献   

2.
彭徵  王灵矫  郭华 《计算机科学》2018,45(12):148-152
文本分类是信息检索的核心技术。传统的文本分类系统由于单机的计算与存储能力有限,已经不适用于大数据时代。在Spark大数据平台上并行地运行算法对文本进行分类,以数据和任务的并行化来提高算法的效率具有现实性和紧迫性。文中提出了改进的不平衡数据随机森林算法,通过对训练样本的多数类进行欠取样且对少数类进行有放回取样从而形成新训练样本的方法来减少不平衡数据对随机森林的影响。实验结果表明,新算法在处理不平衡数据集上的少数类时提高了分类的正确率。  相似文献   

3.
针对流域重金属生态风险评价缺乏实时、有效的方法和监测技术的现状,利用遥感和气象数据构建合理、准确的评估模型监控决策流域环境状况,采集和收集研究区域流域内的气象遥感以及土壤重金属数据,并结合Hakanson潜在生态风险指数,构建流域重金属生态风险评估系统模型.运用Microsoft Visual Studio 2013、ArcGIS等开发平台以及WebGIS技术完成B/S架构系统开发,实现对流域生态环境的远程评估管理.应用结果表明,该系统实现了研究区域重金属含量分析、生态风险等级划分及评价等功能,能够提高研究区生态风险评价的实时性和数据积累结果分析的准确性.  相似文献   

4.
The cloud computing introduces several changes in technology that have resulted a new ways for cloud providers to deliver their services to cloud consumers mainly in term of security risk assessment, thus, adapting a current risk assessment tools to cloud computing is a very difficult task due to its several characteristics that challenge the effectiveness of risk assessment approaches. Consequently, there is a need of risk assessment approach adapted to cloud computing. With such an approach, the cloud consumers can be guaranteed the effectiveness of data security and the cloud providers can win the trust of their cloud consumers. This paper requires the formalization of risk assessment method for conventional system as fundamental steps towards the development of flexible risk assessment approach regarding cloud consumers.  相似文献   

5.
针对数据不平衡带来的少数类样本识别率低的问题,提出通过加权策略对过采样和随机森林进行改进的算法,从数据预处理和算法两个方面降低数据不平衡对分类器的影响。数据预处理阶段应用合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)降低数据不平衡度,每个少数类样本根据其相对于剩余样本的欧氏距离分配权重,使每个样本合成不同数量的新样本。算法改进阶段利用Kappa系数评价随机森林中决策树训练后的分类效果,并赋予每棵树相应的权重,使分类能力更好的树在投票阶段有更大的投票权,提高随机森林算法对不平衡数据的整体分类性能。在KEEL数据集上的实验表明,与未改进算法相比,改进后的算法对少数类样本分类准确率和整体样本分类性能有所提升。  相似文献   

6.
目前,我国电网企业对于识别停电投诉风险,开展用户停电敏感程度分析的研究工作还处在起步阶段.为了有效地分析停电用户的敏感程度,提出了一种基于改进随机森林算法的停电敏感用户分类算法.首先,对原始数据进行清洗、特征选择等预处理;接着,采用SMOTE算法增加少数敏感用户样本数据量,解决数据分布不均匀问题;然后,以Fisher比作为特征的重要性度量,按比例随机采样选取具有代表性的特征构成子特征空间;最后,利用随机森林算法识别停电敏感用户.通过在真实停电数据上的实验,验证了提出的方法不仅具有较好的准确性和时间性能,而且可以有效处理高维、冗余特征的数据.  相似文献   

7.
袁婧 《软件》2022,43(1)
随着互联网和借贷业务的迅速发展,超前消费日趋常态化。银行信贷在满足居民消费需求、促进国民经济发展的同时,也伴随着失信行为带来的影响,给银行造成了巨大损失。借助机器学习技术建立有效的风险控制模型,做好风险防控,已成为业界的迫切需求。本文基于银行风险防控的需求,针对模型构建的需要,对相关数据集进行了统计分析和预处理,为提供模型构建所需的高质量数据样本做了前期准备。基于随机森林算法,利用集成思想的优势,建立了一种有效的风险控制模型。通过性能度量指标对模型进行评估和参数优化,并与决策树算法模型进行对比,根据最终的实验结果验证基于随机森林算法的银行风险控制模型的可行性和有效性。  相似文献   

8.
基于贝叶斯网络的软件项目风险评估模型   总被引:4,自引:0,他引:4       下载免费PDF全文
针对软件项目面临失败风险的问题,提出一种新的软件风险评估模型,采用贝叶斯网络推理风险发生的概率,用模糊语言评估风险后果与损失的方法。实践证明,通过应用基于贝叶斯网络的软件风险评估模型,加强了软件企业风险管理的意识,降低了失败风险发生的概率,提高了软件开发的成功率。  相似文献   

9.
作为一种统一的概率推理结构,贝叶斯网络可以用来表示变量集之间概率的依赖性.文章从防范攻击的角度审视无线局域网安全评估问题,提出了基于贝叶斯网络方法的无线局域网安全风险评估,通过风险因素的识别,结合无线局域网的特点,提出了风险评估的具体办法.  相似文献   

10.
在电信运营商领域,外呼推荐是一种重要的推荐产品和服务的途径。实现了一种基于运营商大数据的自动外呼推荐系统,该系统能够挖掘用户的行为特征并且使用机器学习的方法预测用户对于被推荐产品的接受可能性。传统推荐系统使用的模型算法为矩阵分解、大规模稀疏特征分类、神经网络等。采用随机森林算法的主要原因是随机森林具有并行化程度高、训练速度快、生成的决策树可解释等诸多优点,适合于基于电信业数据的推荐系统。该外呼推荐系统基于Hadoop、Impala和Spark等大数据处理平台及工具,使用随机森林分类器作为核心算法,将用户最近的行为特征回归为接受外呼推荐产品的可能性。在线测试表明使用该系统与当前部署的人工随机外呼相比,能够提升约41%的用户接受率;同时,根据模型算法输出特征的重要性,进一步给出了两类用户的特征分析。  相似文献   

11.
为了提高育种领域选种的准确率同时缩短品种培育年限,利用改进的随机森林算法根据小麦育种历史数据构建评价模型. 在训练分类器之前,利用改进的SMOTE算法来改善训练样本集中的非平衡现象;在基分类器训练完成后,测试单个分类器的性能并剔除性能较差的基分类器,实现随机森林中基分类器的筛选. 实验结果表明,文中提出的算法在小麦种质评价方面取得了不错的效果,可以辅助育种工作者进行品种选育.  相似文献   

12.
对基于贝叶斯网络的多属性信息安全风险评估方法研究,结合历史上发生的安全事件资料,评估安全威胁和脆弱性的概率,计算出各安全要素的风险值。对信息系统风险评估进行量化,使评估结果更加科学和客观。  相似文献   

13.
基于贝叶斯风险最小化的航空发动机状态评估   总被引:1,自引:0,他引:1  
为有效评估航空发动机所处运行状态,提出一种基于贝叶斯风险最小化原则的状态评估方法。利用模糊贝叶斯风险模型从发动机全寿命数据中挖掘得到最优特征子集及对应的权重,利用多属性决策集结运算结果和统计函数生成模糊规则,输出模糊语义形式的评估结果,从而实现逼近决策风险最小化的模糊状态评估。在数值试验中,以CMAPSS(Commercial Modular Aero-Propulsion System Simulation)发动机为研究对象,演示评估过程并验证所提方法的有效性,结果表明所提方法可有效评估发动机健康状态,为航空发动机状态评估提供了一种切实可行的模型。  相似文献   

14.
 随着信息化时代的到来,信息安全问题变得日益复杂与多样,因此急需一种高性能的解决方法。本文在前人的研究基础上进一步改进贝叶斯网络模型在信息安全风险评估中的应用。首先分析信息系统风险元素种类,提出一种新的确定风险因素的方法,即建立因素之间常见关联关系;然后依据因素关联关系确定信息系统指标体系,并结合经验积累的条件概率,利用Matlab贝叶斯网络工具箱(BNT)构建完整的贝叶斯网络风险评估模型,其中包括对评估流程、方法使用及风险等级确定的分析;最后通过实例分析改进的贝叶斯评估模型,对实验数据推理出风险各等级概率。仿真结果与实际结论相一致,表明改进的贝叶斯评估模型能够准确反映信息系统安全风险等级,是一种有效且合理的评估方法。  相似文献   

15.
Computer networks face a variety of cyberattacks. Most network attacks are contagious and destructive, and these types of attacks can be harmful to society and computer network security. Security evaluation is an effective method to solve network security problems. For accurate assessment of the vulnerabilities of computer networks, this paper proposes a network security risk assessment method based on a Bayesian network attack graph (B_NAG) model. First, a new resource attack graph (RAG) and the algorithm E-Loop, which is applied to eliminate loops in the B_NAG, are proposed. Second, to distinguish the confusing relationships between nodes of the attack graph in the conversion process, a related algorithm is proposed to generate the B_NAG model. Finally, to analyze the reachability of paths in B_NAG, the measuring indexs such as node attack complexity and node state transition are defined, and an iterative algorithm for obtaining the probability of reaching the target node is presented. On this basis, the posterior probability of related nodes can be calculated. A simulation environment is set up to evaluate the effectiveness of the B_NAG model. The experimental results indicate that the B_NAG model is realistic and effective in evaluating vulnerabilities of computer networks and can accurately highlight the degree of vulnerability in a chaotic relationship.  相似文献   

16.
于化龙  高尚  赵靖  秦斌 《计算机科学》2012,39(5):190-194
近年来,应用DNA微阵列技术对疾病,尤其是癌症进行诊断,已逐渐成为生物信息学领域的研究热点之一。对比其它的数据载体,微阵列数据通常具有一些独有的特点。针对微阵列数据样本分布不平衡这一特点,提出了一种基于概率分布的过采样技术,通过该技术可以为少数类建立一些合理的伪样本,从而使各类的样本数达到均衡,然后使用随机森林分类器对其进行分类。该方法的有效性和可行性已经在两个标准的微阵列数据集上得到了验证。实验结果显示,与传统的方法相比,该方法可以获得更好的分类性能。  相似文献   

17.
基于类别随机化的随机森林算法   总被引:1,自引:0,他引:1  
随机森林是数据挖掘和机器学习领域中一种常用的分类方法,已成为国内外学者共同关注的研究热点,并被广泛应用到各种实际问题中。传统的随机森林方法没有考虑类别个数对分类效果的影响,忽略了基分类器和类别之间的关联性,导致随机森林在处理多分类问题时的性能受到限制。为了更好地解决该问题,结合多分类问题的特点,提出一种基于类别随机化的随机森林算法(RCRF)。从类别的角度出发,在随机森林两种传统随机化的基础上增加类别随机化,为不同类别设计具有不同侧重点的基分类器。由于不同的分类器侧重区分的类别不同,所生成的决策树的结构也不同,这样既能够保证单个基分类器的性能,又可以进一步增大基分类器的多样性。为了验证所提算法的有效性,在UCI数据库中的21个数据集上将RCRF与其他算法进行了比较分析。实验从两个方面进行,一方面,通过准确率、F1-measure和Kappa系数3个指标来验证RCRF算法的性能;另一方面,利用κ-误差图从多样性角度对各种算法进行对比与分析。实验结果表明,所提算法能够有效提升集成模型的整体性能,在处理多分类问题时具有明显优势。  相似文献   

18.
在结合现有安全管理工具的基础上,该文提出了一个基于数据融合技术的安全动态风险评估模型,采用层次分析法和贝叶斯网络模型实现了评估的关键环节,该方法可用于动态地调整安全控制措施的优先级。  相似文献   

19.
罗知林  陈挺  蔡皖东 《计算机科学》2014,41(4):62-64,74
转发(Retweet)是微博中一个重要的信息传播机制,用户可以将其关注者(Follower)的有趣微博转发到自身平台,分享给他的粉丝(Fan),快速地实现微博信息的传播。主要对微博转发预测进行了研究,首先提取了重要特征,比如用户间的微网络结构、权重比率、用户个人信息等,以研究用户微博转发行为,然后基于以上特征提出了一个随机森林微博转发预测算法(RFMR)。实验结果表明,RFMR算法优于其他分类算法,可以有效地用来预测微博转发。  相似文献   

20.
随着网络技术的日新月异,网络安全越来越成为人们关注的热点问题。网络安全的风险评估,在网络安全技术中具有重要的地位,有利于及时了解网络系统的安全状况。在计算机网络的运行过程中,对网络系统的总体安全性能进行评估,可以为安全体系的构建提供依据,有效地进行网络安全风险管理。本文以网络安全为切入点,在概述网络安全风险评估的基础上,重点探讨了网络安全的风险评估方法,旨在说明网络安全风险评估的重要性,以期为网络安全的风险评估提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号