首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 234 毫秒
1.
针对大数据环境下DCNN(deep convolutional neural network)算法中存在网络冗余参数过多、参数寻优能力不佳和并行效率低的问题,提出了大数据环境下基于特征图和并行计算熵的深度卷积神经网络算法MR-FPDCNN(deep convolutional neural network algorithm based on feature graph and parallel computing entropy using MapReduce)。该算法设计了基于泰勒损失的特征图剪枝策略FMPTL(feature map pruning based on Taylor loss),预训练网络,获得压缩后的DCNN,有效减少了冗余参数,降低了DCNN训练的计算代价。提出了基于信息共享搜索策略ISS(information sharing strategy)的萤火虫优化算法IFAS(improved firefly algorithm based on ISS),根据“IFAS”算法初始化DCNN参数,实现DCNN的并行化训练,提高网络的寻优能力。在Reduce阶段提出了基于并行计算熵的动态负载均衡策略DLBPCE(dynamic load balancing strategy based on parallel computing entropy),获取全局训练结果,实现了数据的快速均匀分组,从而提高了集群的并行效率。实验结果表明,该算法不仅降低了DCNN在大数据环境下训练的计算代价,而且提高了并行系统的并行化性能。  相似文献   

2.
针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher score的特征选择策略(FS-NRS),通过衡量特征的相关性和冗余度,对特征进行过滤,有效减少了冗余及无关特征的数量;其次,提出了一种随机选择和等距提取的扫描策略(S-RSEE),保证了所有特征能够同概率被利用,解决了多粒度扫描两端特征利用率低的问题;最后,结合Spark框架,实现级联森林并行化训练,提出了基于重要性指数的特征筛选机制(FFM-II),筛选出非关键性特征,平衡增强类向量与原始类向量维度,从而加快模型收敛速度,同时设计了基于SCA的任务调度机制(TSM-SCA),将任务重新分配,保证集群负载均衡,解决了级联森林并行效率低的问题。实验表明,PDF-SNRSCA算法能有效提高深度森林的分类效果,且对深度森林并行化训练的效率也有大幅提升。  相似文献   

3.
针对大数据环境下并行K-means算法存在的面对高维数据聚类效果差、数据分区不均匀、初始质心敏感等问题,提出了一种基于MapReduce和MSSA的并行K-means算法MR-MSKCA。首先,提出基于肯德尔相关系数和深度稀疏自动编码器的降维策略(dimensionality reduction strategy based on Kendall correlation coefficient and DSAE,DRKCAE)对高维数据进行特征加权和特征提取,解决了高维数据不相关特征和结构稀疏导致的聚类效果差的问题;其次,提出基于两段映射的广义超平面分区策略 (uniform partition strategy based on two-stage mapping,UPS)对数据集进行划分,获取均匀的数据分区;最后提出非均匀变异麻雀搜索算法 (non-uniform mutation sparrow search algorithm,MSSA)用于获取并行K-means的聚类质心,解决了算法初始质心敏感的问题。在UCI数据集上进行的实验显示,MR-MSKCA较MR-KNMF、MR-PGDLSH、MR-GAPKCA的运行时间分别降低了45.1%、49.1%、59.8%,聚类效果分别提升了19.2%、22.8%、24%,表明 MR-MSKCA对大数据进行聚类时有良好性能,适用于不同场景的大数据聚类分析。  相似文献   

4.
针对工业制品缺陷分类存在的样本图像少、分类准确性不足和模型训练耗时长等问题, 提出了一种基于深度森林的人机协同分类模型. 该模型首先通过深度森林对样本图像进行初步识别, 经多粒度扫描模块和级联森林模块提取特征, 得到初始预测结果并分离出识别困难的样本图像; 然后采用人机协同的策略, 采用人工方式随机标注部分识别困难的样本, 再利用K近邻算法对剩余识别困难的样本进行再分类. 通过在公开数据集以及生产线实际采集的真实数据上的实验结果表明, 改进的分类模型在工业制品表面缺陷数据集上的性能优于基线算法.  相似文献   

5.
深度森林(Deep Forest,DF),由于此模型超参数少,且参数设置没有过多的要求,训练方便,鲁棒性高,因此在处理大型数据时比神经网络算法更加具有优势。但是,传统的深度森林中,多粒度扫描忽略了边缘数据携带的隐含信息,无法充分地获得各个特征子集,进而会对以后的级联部分产生影响。而且,级联部分每次得到的新特征有限,影响了模型的表征学习能力。针对以上问题,提出一种环状强深度森林(Circular Strong Deep Forest,CSDF),其通过环状扫描过程,一定程度上得到更充分的特征子集,且强级联森林通过特征选择提高了模型的表征学习能力。经过在不同数据集上的测试,结果表明,CSDF的性能更加优越,尤其是高维数据上更为明显。  相似文献   

6.
针对大数据环境下随机森林算法存在冗余与不相关特征过多、特征子空间信息含量不足以及并行化效率低等问题,提出了结合增益率与堆叠自编码器的并行随机森林算法PRFGRSAE(parallel random forest algorithm combining gain ratio and stacked auto encoders)。首先,提出了结合非线性归一化增益率和堆叠自编码器的降维策略DRNGRSAE(dimension reduction combining nonlinear normalization gain ratio and stacked auto encoders),通过过滤特征集中的冗余和不相关特征,并利用堆叠自编码器提取特征,有效减少了冗余以及不相关特征数;其次,提出了结合拉丁超立方抽样与归一化相关度的子空间选择策略SSLF(subspace selection strategy combining Latin hypercube sampling and feature class correlation),通过对特征集进行多层划分抽样,形成空间表达度较高的特征子空...  相似文献   

7.
针对大数据环境下并行支持向量机(SVM)算法存在冗余数据敏感、参数选取困难、并行化效率低等问题,提出了一种基于Relief和BFO算法的并行SVM算法RBFO-PSVM。首先,基于互信息和Relief算法设计了一种特征权值计算策略MI-Relief,剔除数据集中的冗余特征,有效地降低了冗余数据对并行SVM分类的干扰;接着,提出了基于MapReduce的MR-HBFO算法,并行选取SVM的最优参数,提高SVM的参数寻优能力;最后,提出核聚类策略KCS,减小参与并行化训练的数据集规模,并提出改进CSVM反馈机制的交叉融合级联式并行支持向量机CFCPSVM,结合MapReduce编程框架并行训练SVM,提高了并行SVM的并行化效率。实验表明,RBFO-PSVM算法对大型数据集的分类效果更佳,更适用于大数据环境。  相似文献   

8.
针对大数据环境下并行深度卷积神经网络(DCNN)算法中存在数据冗余特征多、卷积层运算速度慢、损失函数收敛性差等问题,提出了一种基于Im2col方法的并行深度卷积神经网络优化算法IA-PDCNNOA。首先,提出基于Marr-Hildreth算子的并行特征提取策略MHO-PFES,提取数据中的目标特征作为卷积神经网络的输入,有效避免了数据冗余特征多的问题;其次,设计基于Im2col方法的并行模型训练策略IM-PMTS,通过设计马氏距离中心值去除冗余卷积核,并结合MapReduce和Im2col方法并行训练模型,提高了卷积层运算速度;最后提出改进的小批量梯度下降策略IM-BGDS,排除异常节点的训练数据对批梯度的影响,解决了损失函数收敛性差的问题。实验结果表明,IA-PDCNNOA算法在大数据环境下进行深度卷积神经网络计算具有较好的性能表现,适用于大规模数据集的并行化深度卷积神经网络模型训练。  相似文献   

9.
针对大数据背景下随机森林算法中存在协方差矩阵规模较大、子空间特征信息覆盖不足和节点通信开销大的问题,提出了基于PCA和子空间分层选择的并行随机森林算法PLA-PRF(PCA and subspace layer sampling on parallel random forest algorithm)。对初始特征集,提出了基于PCA的矩阵分解策略(matrix factorization strategy,MFS),压缩原始特征集,提取主成分特征,解决特征变换过程中协方差矩阵规模较大的问题;基于主成分特征,提出基于误差约束的分层子空间构造算法(error-constrained hierarchical subspace construction algorithm,EHSCA),分层选取信息素特征,构建特征子空间,解决子空间特征信息覆盖不足的问题;在Spark环境下并行化训练决策树的过程中,设计了一种数据复用策略(data reuse strategy,DRS),通过垂直划分RDD数据并结合索引表,实现特征复用,解决了节点通信开销大的问题。实验结果表明PLA-PRF算法分类效果更佳,并行化效率更高。  相似文献   

10.
深度森林DF(Deep Forest)由多粒度扫描和级联森林两个部分组成。其中:多粒度扫描通过滑动窗口技术获取多个特征子集,以增强级联森林的差异性;级联森林则是将决策树组成的森林通过级联方式实现表征学习。因此,深度森林克服深度学习参数依赖性强、训练开销大以及仅适用于大数据集等不足之处。然而,深度森林中各个子树的预测精度是各不相同的,简单算术平均会导致子树的错误预测对整个森林的预测产生影响,进而随着级数增加,有可能使错误被进一步放大。为此,提出一种根据森林中每棵子树的预测精度进行加权的深度森林。在高维和低维数据集上进行实验,结果表明:加权的深度森林在高维和低维数据集上性能都获得一定提升,特别在高维数据集上优势较为明显。  相似文献   

11.
针对并行DCNN算法在大数据环境下网络冗余参数过多、收敛速度慢和并行效率低的问题,提出了一种并行化深度卷积神经网络优化算法——PDCNNO(parallel deep convolutional neural networks optimization algorithm)。首先,该算法设计了基于特征图的剪枝策略(PFM),预训练网络,获得压缩后的网络,有效减少了冗余参数,降低了DCNN训练时间和空间复杂度;其次,设计了修正正割线的共轭梯度法(CGMSE),获取局部分类结果,实现了共轭梯度法的快速收敛,提高了网络的收敛速度;最后,在reduce阶段提出了控制负载率的负载均衡策略(LBRLA),获取全局分类结果,实现了数据的快速均匀分组,从而提高了并行系统的加速比。实验表明,该算法不仅降低了DCNN在大数据环境下训练的时间和空间复杂度,而且提高了并行系统的并行化性能。  相似文献   

12.
针对并行密度聚类算法在处理大数据集时存在伸缩困难、参数寻优能力不佳、并行化效率较低等问题,提出一种基于分组和重力搜索优化算法(improve gravitational search algorithm,IGSA)的并行密度聚类算法(densi-ty-based clustering algorithm based on groups and improve gravitational search,MR-GDBIGS).首先,该算法设计了基于图形的分组策略(grouping strategy based on pattern,GSP)来有效划分数据,加速邻域搜索,解决了处理大数据集时伸缩困难的问题;其次,在局部聚类中提出基于位置更新函数(position update function,PUF)的重力搜索优化算法,动态寻找局部聚类中的最优参数,提升了局部聚类的效果;最后,提出基于覆盖树的并行局部簇合并策略(cluster merging strategy by using MapReduce,MR-CTMC),在实现局部簇并行化合并的同时加快了合并局部簇的收敛速度,提升了算法整体的并行化效率.实验结果表明,MR-GDBIGS算法在处理大数据时的聚类效果更佳,且并行化性能更好.  相似文献   

13.
随着大数据时代的到来,数据信息呈几何倍数增长。传统的分类算法将面临着极大的挑战。为了提高分类算法的效率,提出了一种基于弱相关化特征子空间选择的离散化随机森林并行分类算法。该算法在数据预处理阶段对数据集中的连续属性进行离散化。在随机森林抽取特征子空间阶段,利用属性向量空间模型计算属性间的相关性,构造弱相关化特征子空间,使所构建的决策树之间相关性降低,从而提高随机森林的分类效果;并通过研究随机森林的并行化策略,结合MapReduce框架,改进并实现了随机森林模型构建过程的双重并行化,进一步改善了算法的计算效率。  相似文献   

14.
卞凌志  王直杰 《计算机应用》2021,41(9):2539-2544
信用风险是商业银行所面临的主要金融风险之一,而传统的基于统计学习的信用评分方法不能有效利用现有的特征学习方法,因此预测准确度不高。为解决这个问题,提出一种增强多维多粒度级联森林的方法建立信用评分模型,借鉴残差学习的思想,建立了多维多粒度级联残差森林(grcForest)模型,从而大幅增加提取的特征。除此之外,使用多维多粒度的扫描尽可能多地提取原始数据的特征,从而提高了特征提取的效率。对各模型的实验结果通过AUC(Area Under Curve)、准确率等指标进行评价,同时把所提模型与现有的统计学习和机器学习算法在四个不同的信用评分数据集上进行对比,可知所提出的模型的AUC值相较于轻量级梯度提升机(LightGBM)方法平均高1.13%,相较于极端梯度提升(XGBoost)方法平均高1.44%。从实验结果可以看出,提出的模型预测效果最佳。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号