首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 434 毫秒
1.
随着大数据时代的到来,数据信息呈几何倍数增长。传统的分类算法将面临着极大的挑战。为了提高分类算法的效率,提出了一种基于弱相关化特征子空间选择的离散化随机森林并行分类算法。该算法在数据预处理阶段对数据集中的连续属性进行离散化。在随机森林抽取特征子空间阶段,利用属性向量空间模型计算属性间的相关性,构造弱相关化特征子空间,使所构建的决策树之间相关性降低,从而提高随机森林的分类效果;并通过研究随机森林的并行化策略,结合MapReduce框架,改进并实现了随机森林模型构建过程的双重并行化,进一步改善了算法的计算效率。  相似文献   

2.
近年来国内通信行业发展十分迅速,运营商通信网络的规模也随之壮大。在运营商通信网络中,数据中心机房是不可或缺的重要枢纽,承担着巨大的通信压力,数据中心机房的配电系统故障率和安全事故的风险也在不断提高,同时也导致机房运维难度和运维成本与日俱增。在现代电力系统中电力大数据的格局下,对高维海量数据进行深度挖掘,进而预测可能存在的告警,从而做到防患于未然,是一个值得研究的问题。针对电力大数据环境下高精度和实时性的负载预测展开了研究,提出了基于随机森林算法的负载预警,并基于Spark平台实现其并行化。结合某区域实际电力数据设计试验,进行模型训练和回归预测,通过试验证明,对同等的数据集,并行随机森林算法预测精度高于单机负载预测,为负载预测提供了一种新思路。  相似文献   

3.
面向CFD的交互式并行化系统Paractive   总被引:2,自引:0,他引:2  
该文介绍了面向计算流体力学(CFD)的交互式并行化系统Paractive以及Paractive系统实现时所采用的关键技术。该文根据CFD程序及其并行化的特点提出了CFD程序并行化的区域计算模型以及区域相关的概念。区域计算模型将CFD程序看成区域操作的有序组合,区域相关则以区域操作为基本单位,区域操作本身所具有的对大块数据进行整体操作的特点,使得区域计算模型和区域相关非常适合开发CFD程序中蕴含的数据并行性。另外,该文还介绍了基于程序对象树的增量分析技术以及CFD程序并行化的静态性能预测技术,并在最后给出了使用Paractive并行化CFD实际算例的测试数据。  相似文献   

4.
为提高气象预测精度,实时应对频发的局域气象灾害,拥有更高的处理海量数据的效率,提出了一种基于Storm的在线序列的极限学习机气象预测模型.该模型首先初始化多个在线极限学习机,当新批次的数据不断到达时,模型能够在训练结果的基础上继续学习新样本,并引入随机梯度下降法和误差权值调整方法,对新的预测结果进行误差反馈,实时更新误差权值参数,以提高模型预测准确率.另外,采用Storm流式处理框架对提出的算法模型进行并行化改进,以提高处理海量高维数据的能力.实验结果表明:该模型与基于Hadoop的并行极限学习机算法(parallel extreme learning machine, PELM)相比,具有更高的预测精度和优异的并行性能.  相似文献   

5.
一个区域的环境因素决定了它适合种植的植被类型。在森林的培育中,种植适宜各区域环境特征的植被种类至关重要。本文提出使用决策树多元分类模型预测森林植被类型,为育林工作提供强有力的指导和帮助。首先,介绍了研究中使用的决策树分类算法,阐述了算法的并行化研究;然后,利用已有数据和算法进行实验分析,使用最优模型预测各区域适宜生长的植被类型;最后,得出结论,并展望未来的研究工作。  相似文献   

6.
借助混沌免疫遗传优化算法对于BP神经网络进行训练,建立基于混沌免疫遗传算法的混合神经网络模型。针对混沌免疫遗传神经网络计算工作量大,训练速度慢的缺点,利用Matlab的Parallel Computing Toolbox对于所建立的混沌免疫遗传神经网络模型进行并行化算法设计实现,并对渤海海区年极值冰厚数据进行预测,对比分析了串行和并行算法的计算效率和加速比,表明基于多核系统的并行化设计算法可以提高加速比和计算效率。  相似文献   

7.
借助混沌免疫遗传优化算法对于BP神经网络进行训练,建立基于混沌免疫遗传算法的混合神经网络模型.针对混沌免疫遗传神经网络计算工作量大,训练速度慢的缺点,利用Matlab的Parallel Computing Toolbox对于所建立的混沌免疫遗传神经网络模型进行并行化算法设计实现,并对渤海海区年极值冰厚数据进行预测,对比分析了串行和并行算法的计算效率和加速比,表明基于多核系统的并行化设计算法可以提高加速比和计算效率.  相似文献   

8.
针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher score的特征选择策略(FS-NRS),通过衡量特征的相关性和冗余度,对特征进行过滤,有效减少了冗余及无关特征的数量;其次,提出了一种随机选择和等距提取的扫描策略(S-RSEE),保证了所有特征能够同概率被利用,解决了多粒度扫描两端特征利用率低的问题;最后,结合Spark框架,实现级联森林并行化训练,提出了基于重要性指数的特征筛选机制(FFM-II),筛选出非关键性特征,平衡增强类向量与原始类向量维度,从而加快模型收敛速度,同时设计了基于SCA的任务调度机制(TSM-SCA),将任务重新分配,保证集群负载均衡,解决了级联森林并行效率低的问题。实验表明,PDF-SNRSCA算法能有效提高深度森林的分类效果,且对深度森林并行化训练的效率也有大幅提升。  相似文献   

9.
本文描述了化学复合驱数值模拟程序UTCHEM在分布式内存多计算机并行系统SMP-CLUSTER上并行化的关键技术。化学复合驱并行模型采用单程序多数据(SPMD)程序模型,利用区域分解方法将整个求解区域分解为子区域,使得多个计算节点同时求解一个单一的模拟问题。各计算节点通过消息传递对重叠区域的共享数据进行通信,以协调各节点之问的计算。目前仅对压力方程组求解部分进行了并行化实现。测试结果显示了较好的并行效率。  相似文献   

10.
提出一种改进随机森林算法(SP-RF).通过建立数据抽样索引表和随机特征索引表来实现随机森林算法在Spark上的并行化;通过计算随机森林算法中每个决策树的AUC值来给分类能力不同的决策树分配权重;提高随机森林算法在投票环节的分类精度.实验结果表明改进后的随机森林算法分类精度平均提高5%,运行时间平均减少25%以上.  相似文献   

11.
赵永晖 《计算机时代》2014,(3):36-37,41
目前高校不断扩招,生源却逐渐减少,于是预防和减少学生流失正成为各高校必须面对的问题。通过对高校学生流失情况进行数据挖掘,可发现一些有价值的信息,为解决高校学生流失问题提供帮助。基于糊模理论提出了糊模ID3算法,并将该算法运用于分析高校学生流失原因之中。通过实验证明,该算法生成的决策树更加合理,分类速度更快,为解决高校学生流失问题提供了理论依据。  相似文献   

12.
为解决互联网时代线上贷款业务量庞大带来的困扰,优化快速迭代的数据模型,从线上贷款业务的特点出发,以Spark分布式计算引擎为核心设计并实现了能够并行处理非平衡数据的加权随机森林算法.该算法从特征切分点抽样统计、特征分箱、逐层训练三个角度对加权随机森林算法进行并行化优化.该算法有效提高了随机森林算法的分类准确率,同时有效降低了决策过程中出现的平局现象.对非平衡数据,该文章通过SMOTE算法对数据进行重构,较好的保留了原有数据集信息.实验表明,该算法能够有效提高放贷效率性与及时性,极大的提高了生产力.  相似文献   

13.
With the rapid development and popularization of new-generation technologies such as cloud computing, big data, and artificial intelligence, the construction of smart grids has become more diversified. Accurate quick reading and classification of the electricity consumption of residential users can provide a more in-depth perception of the actual power consumption of residents, which is essential to ensure the normal operation of the power system, energy management and planning. Based on the distributed architecture of cloud computing, this paper designs an improved random forest residential electricity classification method. It uses the unique out-of-bag error of random forest and combines the Drosophila algorithm to optimize the internal parameters of the random forest, thereby improving the performance of the random forest algorithm. This method uses MapReduce to train an improved random forest model on the cloud computing platform, and then uses the trained model to analyze the residential electricity consumption data set, divides all residents into 5 categories, and verifies the effectiveness of the model through experiments and feasibility.  相似文献   

14.
高校毕业生质量直接关系到高校的社会声誉与发展. 为了准确的评价高校的毕业生质量, 本文基于某高校计算机类毕业生的历史数据, 采用一种改进的随机森林算法构建人才培养质量评价模型. 在训练分类器之前, 利用RF Ranking方法来度量特征重要性并选取75%的特征进行降维处理, 以此改善训练样本的非平衡现象; 通过对基分类器的训练, 测试各个分类器的性能, 依据性能的强弱对单个分类器作加权处理, 以此降低性能较差的分类器对结果的影响. 实践结果表明, 该算法提高了人才培养质量评价的准确率和精确度, 可以在高校人才培养方面起到指导作用.  相似文献   

15.
针对电网系统的故障问题,在Weka语言软件上对随机森林算法为核心的电网故障分析系统模型进行实例分析。同时将随机森林算法与决策树(decision tree)算法、神经网络算法(Neural Network Algorithm, NNA)以及支持向量机(Support Vector Machines, SVM)的预测准确率进行对比,验证随机森林算法的优越性。结果表明,随机森林算法非常适合应用在电网故障分析系统中,在预测准确率方面,故障等级越高预测难度越大,准确率较低,而故障等级越低其故障预测的准确率越高。  相似文献   

16.
在高速网络环境中,对复杂多样的网络入侵进行快速准确的检测成为目前亟待解决的问题。联邦学习作为一种新兴技术,在缩短入侵检测时间与提高数据安全性上取得了很好的效果,同时深度神经网络(DNN)在处理海量数据时具有较好的并行计算能力。结合联邦学习框架并将基于自动编码器优化的DNN作为通用模型,建立一种网络入侵检测模型DFC-NID。对初始数据进行符号数据预处理与归一化处理,使用自动编码器技术对DNN实现特征降维,以得到DNN通用模型模块。利用联邦学习特性使得多个参与方使用通用模型参与训练,训练完成后将参数上传至中心服务器并不断迭代更新通用模型,通过Softmax分类器得到最终的分类预测结果。实验结果表明,DFC-NID模型在NSL-KDD与KDDCup99数据集上的准确率平均达到94.1%,与决策树、随机森林等常用入侵检测模型相比,准确率平均提升3.1%,在攻击类DoS与Probe上,DFC-NID的准确率分别达到99.8%与98.7%。此外,相较不使用联邦学习的NO-FC模型,DFC-NID减少了83.9%的训练时间。  相似文献   

17.
高校招生信息管理工作是高校学生工作的主要环节,属于一项复杂却精细化的工作.因此本文基于云计算与SOA框架设计了高校招生信息管理系统.首先设计系统整体框架,其次详细设计系统综合性能、功能模块、数据库,最后进行系统实现与部署.结果表明,此系统功能完善,稳定性与可靠性较高,可满足系统多元化需求,显著提升招生信息管理效率与水平...  相似文献   

18.
随机森林是一种组合分类器技术,相较于决策树等单分类器,具有更好的预测和分类性能,但其也存在一些问题:因为随机森林自身的随机性,导致预测结果存在波动性;所使用的原始数据集样本基数大,维数多,增加了随机森林组合分类器的训练时间。针对以上问题,提出优化随机森林模型,对数据集进行数据集预处理和PCA降维操作,引入累计贡献率。结合选择的最佳阈值进行最终的预测结果分类,提高了模型的训练速度、预测准确率和稳定性。实验证明,该方法具有更优越的预测性能。  相似文献   

19.
随机森林在bootstrap的基础上通过对特征进行抽样构建决策树,以牺牲决策树准确性的方式来降低决策树间的相关性,从而提高预测的准确性。但在数据规模较大时,决策树间的相关性仍然较高,导致随机森林的性能表现不佳。为解决该问题,提出一种基于袋外预测的改进算法,通过提高决策树的准确性来提升随机森林的预测性能。将随机森林的袋外预测与原特征相结合并重新训练随机森林,以有效降低决策树的VC-dimension、经验风险、泛化风险并提高其准确性,最终提升随机森林的预测性能。然而,决策树准确性的提高会使决策树间的预测趋于相近,提升了决策树间的相关性从而影响随机森林最终的预测表现,为此,通过扩展空间算法为不同决策树生成不同的特征,从而降低决策树间的相关性而不显著降低决策树的准确性。实验结果表明,该算法在32个数据集上的平均准确率相对原始随机森林提高1.7%,在校正的paired t-test上,该方法在其中19个数据集上的预测性能显著优于原始随机森林。  相似文献   

20.
颜一鸣  郭鑫 《计算机工程》2014,(3):67-70,92
为适应真实环境中数据量大、流程复杂、计算密集的数据挖掘需求,提高传统树增量更新挖掘效率,改变已有算法的串行执行方式,提出一种基于Hadoop的动态树增量更新方法。介绍云计算、模型与执行流程等基本概念,针对现有Hadoop平台中任务调度的随机分配策略,设计一种动态云平台中的资源调度与分配算法,以期达到成本消耗的最小化,给出树增量更新挖掘算法以及2个并行算法(DeleteFreqTree和FindNewTree),完成树数据的增量挖掘工作。实验结果表明,该并行算法有效可行,具有高效性与良好的扩展率,能够对海量树数据进行更新挖掘。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号