首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
刘炜 《控制工程》2021,28(9):1879-1885
为了提高网络入侵检测(NID)系统的检测准确度,适应现代网络需求,提出一种入侵检测的深度学习方法.该方法利用堆叠式非对称深度自编码器(NDAE)构建深度学习分类模型,将堆叠式NDAE(深度学习)和随机森林(浅层学习)的优点相结合,以支持NID在现代网络中的运行.实验使用KDD Cup'99和NSL-KDD基准数据集对所...  相似文献   

2.
传统的包外估计记录全局数据与树之间的对应关系来测算泛化误差。然而基于MapReduce机制的并行随机森林算法(MR_RF)是建立在多个互不可见分块数据上。对此分析MR_RF与RF的区别,设计了一个新的适用于MR_RF的包外泛化误差估计方法。主要将测算限定在数据块内,最终森林的泛化误差估计取块结果的平均。实验结果表明,新的包外估计方法与交叉验证在默认分块上结果近似,却随着分块的增加出现偏差,对此分析了可能的原因并给出选择集成方案思想。且分块大小与分类准确率成反比,与分类速率成正比。  相似文献   

3.
提出一种改进随机森林算法(SP-RF).通过建立数据抽样索引表和随机特征索引表来实现随机森林算法在Spark上的并行化;通过计算随机森林算法中每个决策树的AUC值来给分类能力不同的决策树分配权重;提高随机森林算法在投票环节的分类精度.实验结果表明改进后的随机森林算法分类精度平均提高5%,运行时间平均减少25%以上.  相似文献   

4.
桥梁裂缝检测对于桥梁健康检测具有重要的意义.基于布里渊时域分析的分布式光纤传感器能够测量整个结构表面的应变数据.由于测量所得应变数据信噪比低,存在裂缝损伤处的应变异常被噪声"淹没"和"混淆"的问题.针对这一问题,提出一种基于一维堆叠卷积自编码器的分类检测方法.该方法具有噪声鲁棒性强、自提取特征可判别性高等优势.首先,通过布置光纤传感器获取结构表面应变数据,对光纤应变数据进行标准化预处理,并划分应变子序列.然后,使用一维堆叠卷积自编码器自动提取应变子序列的特征.最后,通过Softmax分类器对所提取的应变子序列特征进行分类,即裂缝或非裂缝.实验结果表明,该方法可以有效检测微小裂缝,检测准确率高.并且该方法提取的特征可判别性优于卷积神经网络和堆叠自编码器等方法.  相似文献   

5.
提出一种改进随机森林算法(SP-RF).通过建立数据抽样索引表和随机特征索引表来实现随机森林算法在Spark上的并行化;通过计算随机森林算法中每个决策树的AUC值来给分类能力不同的决策树分配权重;提高随机森林算法在投票环节的分类精度.实验结果表明改进后的随机森林算法分类精度平均提高5%,运行时间平均减少25%以上.  相似文献   

6.
蒋宗礼  王一大 《计算机科学》2017,44(12):227-231
基于深度学习的特征抽取是目前数据降维问题的研究热点,堆叠自编码器作为一种较为常用的模型,无法对混有噪声及较稀疏的数据进行良好的特征表达。面向微博情感分析,通过在堆叠降噪自编码器的各隐藏层中加入稀疏因子,来解决样本数据所含噪声和稀疏性对特征抽取的影响。使用COAE评测数据集进行的情感分析实验表明所提模型分类的准确率和召回率都有所提高。  相似文献   

7.
深度神经网络是具有复杂结构和多个非线性处理单元的模型,广泛应用于计算机视觉、自然语言处理等领域.但是,深度神经网络存在不可解释这一致命缺陷,即“黑箱问题”,这使得深度学习在各个领域的应用仍然存在巨大的障碍.本文提出了一种新的深度神经网络模型——知识堆叠降噪自编码器(Knowledge-based stacked denoising autoencoder,KBSDAE).尝试以一种逻辑语言的方式有效解释网络结构及内在运作机理,同时确保逻辑规则可以进行深度推导.进一步通过插入提取的规则到深度网络,使KBSDAE不仅能自适应地构建深度网络模型并具有可解释和可视化特性,而且有效地提高了模式识别性能.大量的实验结果表明,提取的规则不仅能够有效地表示深度网络,还能够初始化网络结构以提高KBSDAE的特征学习性能、模型可解释性与可视化,可应用性更强.  相似文献   

8.
针对MapReduce框架下的随机森林算法在处理大数据问题时存在的冗余与不相关特征过多,训练特征信息量低以及并行化效率低等问题,提出了大数据下基于信息论和范数的并行随机森林算法(PRFITN).首先,该算法基于信息增益和Frobenius范数设计了一种混合降维策略(DRIGFN),获得降维后的数据集,有效减少了冗余及不...  相似文献   

9.
彭徵  王灵矫  郭华 《计算机科学》2018,45(12):148-152
文本分类是信息检索的核心技术。传统的文本分类系统由于单机的计算与存储能力有限,已经不适用于大数据时代。在Spark大数据平台上并行地运行算法对文本进行分类,以数据和任务的并行化来提高算法的效率具有现实性和紧迫性。文中提出了改进的不平衡数据随机森林算法,通过对训练样本的多数类进行欠取样且对少数类进行有放回取样从而形成新训练样本的方法来减少不平衡数据对随机森林的影响。实验结果表明,新算法在处理不平衡数据集上的少数类时提高了分类的正确率。  相似文献   

10.
李艳涛  冯伟森 《计算机应用》2015,35(11):3256-3260
针对垃圾邮件数量日益攀升的问题,提出了将堆叠去噪自编码器应用到垃圾邮件分类中.首先,在无标签数据集上,使用无监督学习方法最小化重构误差,对堆叠去噪自编码器进行贪心逐层预训练,从而获得原始数据更加抽象和健壮的特征表示; 然后,在堆叠去噪自编码器的最上层添加一个分类器后,在有标签数据集上,利用有监督学习方法最小化分类误差,对预训练获得的网络参数进行微调,获得最优化的模型; 最后, 利用训练完成的堆叠去噪编码器在6个不同的公开数据集上进行测试.将准确率、召回率、更具有平衡性的马修斯相关系数作为实验性能评价标准,实验结果表明,相比支持向量机算法、贝叶斯方法和深度置信网络的分类效果,基于堆叠去噪自编码器的垃圾邮件分类器的准确率都高于95%,马修斯相关系数都大于0.88,在应用中具有更高的准确率和更好的健壮性.  相似文献   

11.
面对大数据规模庞大且计算复杂等问题,基于MapReduce框架采用两阶段渐进式的聚类思想,提出了改进的K-means并行化计算的大数据聚类方法。第一阶段,该算法通过Canopy算法初始化划分聚类中心,从而迅速获取粗精度的聚类中心点;第二阶段,基于MapReduce框架提出了并行化计算方案,使每个数据点围绕其邻近的Canopy中心进行细化的聚类或合并,从而对大数据实现快速、准确地聚类分析。在MapReduce并行框架上进行算法验证,实验结果表明,所提算法能够有效地提升并行计算效率,减少计算时间,并提升大数据的聚类精度。  相似文献   

12.
MapReduce并行计算技术发展综述   总被引:2,自引:1,他引:1  
经过几年的发展,并行编程模型MapReduce产生了若干个改进框架,它们都是针对传统MapReduce的不足进行的修正或重写. 本文阐述和分析了这些研究成果,包括: 以HaLoop为代表的迭代计算框架、以Twitter Storm为代表的实时计算框架、以Apache Hama为代表的图计算框架以及以Apache YARN为代表的框架管理平台. 这些专用系统在大数据领域发挥着越来越重要的作用.  相似文献   

13.
基于粒计算的决策树并行算法的应用   总被引:1,自引:0,他引:1  
针对传统的决策树分类算法不能有效解决海量数据挖掘的问题,结合并行处理模型M apReduce ,研究基于粒计算的ID3决策树分类的并行化处理方法。基于信息粒的二进制表示来构建属性的二进制信息粒向量,给出数据集的二进制信息粒关联矩阵表示;基于二进制信息粒关联矩阵,提出属性的信息增益的计算方法,设计基于M apReduce的粒计算决策树并行分类算法。通过使用标准数据集和实际气象领域的雷电真实数据集进行测试,验证了该算法的有效性。  相似文献   

14.
针对大规模项目资源库中项目资源信息无序而导致无法准确快速找出项目资源库中所需资源的问题,提出了基于MapReduce的并行化模糊聚类划分算法。该算法首先抽象原始项目资源特征属性并标准化;其次,根据标准化后的特征属性建立项目相似矩阵,运用矩阵分块思想分割矩阵;然后,利用MapReduce技术处理分块矩阵并合并结果;最后,运用阈值评判划分成若干个有序的项目组。与K-means算法和遗传算法的对比实验结果证明:该算法具有较高的准确率和查全率,并且在大规模数据计算时能够得到较高的加速比,可以有效准确地划分项目资源。  相似文献   

15.
针对现有欠采样处理算法中存在样本缺少代表性、分类性能差等问题,提出了一种基于聚类欠采样的加权随机森林算法(weighted random forest algorithm based on clustering under-sampling,CUS-WRF)。利用K-means算法对多数类样本聚类,引入欧氏距离作为欠采样时分配样本个数的权重依据,使采样后的多数类样本与少数类样本形成一个平衡的样本集,以CART决策树为基分类器,加权随机森林为整体框架,同时将测试样本的准确率作为每棵树的权值来完成对结果的最终投票,有效提高了整体分类性能。选择八组KEEL数据集进行实验,结果表明,与其余四种基于随机森林的不平衡数据处理算法相比,CUS-WRF算法的分类性能及稳定性更具优势。  相似文献   

16.
K-means算法处理海量数据时,易产生系统内存溢出的现象。利用MapReduce框架改进K-means虽然解决了这个问题,但也存在着聚类效果不稳定以及准确率不高等问题,提出一种改进算法,利用MapReduce框架实现K-means时,采用多次随机抽样,通过计算密度、距离与平方误差等方法,最终选取较优的初始聚类中心,并在迭代中采用新的中心点计算方法。实验结果证明,改进后的算法具有较好的稳定性、准确性和加速比。  相似文献   

17.
特定信息增益决策森林分类器研究   总被引:2,自引:1,他引:1       下载免费PDF全文
传统的决策树是利用决策属性的信息增益来进行建模的,而有时决策属性的信息增益是根据属性的不同取值而动态变化的。改进了决策树算法,考虑了决策属性取值不同产生的信息增益的差别。根据决策属性的不同取值创建了基于特定信息增益的决策森林分类模型。实验结果表明虽然决策森林模型的建模过程比决策树复杂,但是具有比较高的分类精度。  相似文献   

18.
模糊C均值是一种重要的软聚类算法,针对模糊C均值的随着数据量的增加,时间复杂度过高的缺点,提出了一种基于MapReduce的并行模糊C均值算法。算法重新设计模糊C均值,使其符合MapReduce的基于key/value的编程模型,并行计算数据集到中心点的隶属度,并重新计算出新的聚类中心,提高了模糊C均值处理大容量数据的计算效率。实验结果表明,基于MapReduce的并行模糊C均值算法具有较高的加速比和扩展性。  相似文献   

19.
自适应随机森林分类器在每个基础分类器上分别设置了警告探测器和漂移探测器,实例训练时常常会同时触发多个警告探测器,引起多棵背景树同步训练,使得运行所需的内存大、时间长。针对此问题,提出了一种改进的自适应随机森林集成分类算法,将概念漂移探测器设置在集成学习器端,移除各基础树端的漂移探测器,并根据集成器预测准确率确定需要训练的背景树的数量。用改进后的算法对较平衡的数据流进行分类,在保证分类性能的前提下,与改进前的算法相比,运行时间有所降低,消耗内存有所减少,能更快适应数据流中出现的概念漂移。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号