首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
深度森林DF(Deep Forest)由多粒度扫描和级联森林两个部分组成。其中:多粒度扫描通过滑动窗口技术获取多个特征子集,以增强级联森林的差异性;级联森林则是将决策树组成的森林通过级联方式实现表征学习。因此,深度森林克服深度学习参数依赖性强、训练开销大以及仅适用于大数据集等不足之处。然而,深度森林中各个子树的预测精度是各不相同的,简单算术平均会导致子树的错误预测对整个森林的预测产生影响,进而随着级数增加,有可能使错误被进一步放大。为此,提出一种根据森林中每棵子树的预测精度进行加权的深度森林。在高维和低维数据集上进行实验,结果表明:加权的深度森林在高维和低维数据集上性能都获得一定提升,特别在高维数据集上优势较为明显。  相似文献   

2.
针对工业制品缺陷分类存在的样本图像少、分类准确性不足和模型训练耗时长等问题,提出了一种基于深度森林的人机协同分类模型.该模型首先通过深度森林对样本图像进行初步识别,经多粒度扫描模块和级联森林模块提取特征,得到初始预测结果并分离出识别困难的样本图像;然后采用人机协同的策略,采用人工方式随机标注部分识别困难的样本,再利用K近邻算法对剩余识别困难的样本进行再分类.通过在公开数据集以及生产线实际采集的真实数据上的实验结果表明,改进的分类模型在工业制品表面缺陷数据集上的性能优于基线算法.  相似文献   

3.
属性分组是高维离群检测中的有效手段之一,可以有效缓解“维度灾难”的干扰,但现有的属性分组离群检测方法未能体现属性组之间的差异性,以及属性组的偏离程度,严重影响了高维离群检测的效果与性能。该文采用信息熵累加和刻画与描述属性组之间的差异性,提出了一种基于属性组权重的分类离群检测方法。首先,根据数据模式频率和编码长度,定义了属性组偏离因子,并将其作为属性组之间的合并依据,有效地刻画了属性组的偏离程度,进一步提高了属性分组过程中的搜索效率;其次,利用信息熵累加和定义了属性组权重,有效地体现了不同属性组之间的差异性;然后,依据属性组权重,重新定义了离群得分函数,并提出了一种基于属性组权重的分类数据离群检测算法;最后,采用UCI,NTU,KEEL和人工合成数据集,实验验证了该离群检测算法不仅具有较高的检测精度和效率,而且也具有良好的可扩展性与伸缩性,可适用于高维海量分类属性数据集的离群检测任务。  相似文献   

4.
软件缺陷预测是合理利用软件测试资源、提高软件性能的重要途径。为处理软件缺陷预测模型中浅层机器学习算法无法对软件数据特征进行深度挖掘的问题,提出一种改进深度森林算法——深度堆叠森林(DSF)。该算法首先采用随机抽样的方式对软件的原始特征进行变换以增强其特征表达能力,然后用堆叠结构对变换特征做逐层表征学习。将深度堆叠森林应用于Eclipse数据集的缺陷预测中,实验结果表明,该算法在预测性能和时间效率上均比深度森林有明显的提升。  相似文献   

5.
针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher score的特征选择策略(FS-NRS),通过衡量特征的相关性和冗余度,对特征进行过滤,有效减少了冗余及无关特征的数量;其次,提出了一种随机选择和等距提取的扫描策略(S-RSEE),保证了所有特征能够同概率被利用,解决了多粒度扫描两端特征利用率低的问题;最后,结合Spark框架,实现级联森林并行化训练,提出了基于重要性指数的特征筛选机制(FFM-II),筛选出非关键性特征,平衡增强类向量与原始类向量维度,从而加快模型收敛速度,同时设计了基于SCA的任务调度机制(TSM-SCA),将任务重新分配,保证集群负载均衡,解决了级联森林并行效率低的问题。实验表明,PDF-SNRSCA算法能有效提高深度森林的分类效果,且对深度森林并行化训练的效率也有大幅提升。  相似文献   

6.
深度森林(Deep Forest,DF),由于此模型超参数少,且参数设置没有过多的要求,训练方便,鲁棒性高,因此在处理大型数据时比神经网络算法更加具有优势。但是,传统的深度森林中,多粒度扫描忽略了边缘数据携带的隐含信息,无法充分地获得各个特征子集,进而会对以后的级联部分产生影响。而且,级联部分每次得到的新特征有限,影响了模型的表征学习能力。针对以上问题,提出一种环状强深度森林(Circular Strong Deep Forest,CSDF),其通过环状扫描过程,一定程度上得到更充分的特征子集,且强级联森林通过特征选择提高了模型的表征学习能力。经过在不同数据集上的测试,结果表明,CSDF的性能更加优越,尤其是高维数据上更为明显。  相似文献   

7.
空气质量指数(Air Quality Index, AQI)预测可以为人们日常生产活动以及空气污染治理工作提供指导.针对空气质量指数预测模型受离群点影响较大的问题,利用孤立森林算法对空气质量数据集进行离群点分析,采用离群鲁棒极限学习机模型(ORELM)对空气质量指数进行预测,并构建误差修正模块对模型预测误差进行修正.最后,以北京市空气质量数据作为研究对象,分别利用ORELM模型以及极限学习机(ELM)模型进行预测,并对ORELM模型预测结果进行误差修正.实验结果表明:离群鲁棒极限学习机对离群点数据集泛化性能更强,误差修正模块能有效提高模型的预测精度.  相似文献   

8.
在多示例学习框架下,训练数据集由若干个包组成,包内含有多个用属性-值对形式表示的示例,系统对包内的多个示例进行学习。传统的基于多示例学习的局部离群点检测算法将多示例学习框架运用到数据集上,将多示例问题转化为单示例问题进行处理。但在示例包的转换过程中采用示例内部的特征长度所占比作为权重机制,并没有考察对结果影响较大的示例,分析原因或者动态调整其权重,从而对离群点检测的效果造成影响。针对这一问题,为了充分适应数据内部的分布特征,提出了一种基于多示例学习的局部离群点改进算法FWMIL-LOF。算法采用MIL(Multi-Instance Learning)框架,在示例包的转换过程中引入描述数据重要度的权重函数,通过定义惩罚策略对权重函数做相应调整,从而确定了不同特征属性的示例在所属包中的权重。在实际企业的实时采集监控系统中,通过仿真分析,并与其他经典局部离群点检测算法进行对比,验证了改进算法在离群点检测效果方面的提高。  相似文献   

9.
针对电商大数据时代用户未来购买行为预测,在京东平台真实数据集上,提出时间滑动窗口技术和窗口权重递减设置,从五方面构建整体用户行为特征,综合考虑深度学习的表征学习能力和集成学习的训练效率,引入多层异源集成算法,将随机森林、XGBoost等多种算法进行组合,搭建基于深度森林模型的用户购买行为预测算法框架,实现准确高效的用户购买预测结果。算法训练时间为68 s,预测准确率达89.3%,相对于集成学习算法和深度神经网络模型取得了更好的效果。  相似文献   

10.
多标签深度森林(Multi-Label Deep Forest,MLDF)是一种基于深度森林的深度集成学习模型。为了限制模型的复杂度以及用户可以根据需求优化评价指标,多标签深度森林使用了两种算法:度量感知特征重用与度量感知层增长。前者重用前一层较好的特征,后者用于限制模型增长,然而度量感知特征重用算法使用当前层的输出取算术平均值来计算置信度,忽略了各个森林的精度差异造成的影响。因此,提出一种改进的度量感知特征重用算法,为每个森林在每个标签上赋予权重来计算置信度。实验结果表明,改进的算法在低维多标签数据集上有一定的提升。  相似文献   

11.
基于运动想象的脑电信号是用户在执行不同运动想象任务时采集到的不同脑区的电信号.受到用户的大脑结构和头皮状态等因素影响,采集到的运动想象任务信号之间混乱,从而导致大量信号被错分.鉴于此,提出一种基于改进深度森林的运动想象任务信号分类方法.首先,利用变长粒子群算法强大的寻优能力,为深度森林中每一层的随机森林和完全随机森林预测的类概率值搜寻最优权重;然后,将此权重赋予对应的类概率值,以此实现对结果修正目的;最后,利用BCI竞赛IV的数据集2a评估所提出方法的有效性.实验结果表明,相比传统的深度森林,该方法对四分类运动想象脑电信号实现了更高的分类准确率.所提出方法根据分类器预测的结果进行学习,对于提升分类器性能的研究具有重要意义.  相似文献   

12.
基于邻域的离群点检测算法中,参数的选择与确定是一个重要的问题,不合理的参数选择导致算法的性能显著下降。为减少参数对于离群点检测的影响,提出了一种基于马尔科夫随机游走的两阶段离群检测算法,可以在不影响算法效率的基础上,有效降低参数对检测结果的影响。该算法采用均匀采样策略生成一系列三角剖分图,并引入移除规则得到节点的拓扑结构,从而获得由节点连通性定义的转移概率矩阵,有效减少了算法的计算量和运行时间;其采用加权投票原则重新定义重启向量,并将不同图上得到的平稳分布向量的平均偏差值作为离群点分数,有效地提高了算法的准确性。采用合成数据集以及UCI数据集,验证了该算法与现有的算法相比有更高的准确率。  相似文献   

13.
复杂网络是复杂系统的典型表现形式,社区结构是复杂网络最重要的结构特征之一。针对目前社区发现算法精确度低以及不适合大规模网络的问题,提出一种新的算法DA-EF和用于度量节点之间相似度的影响力扩散指标。DA-EF利用多层自动编码器与森林编码器构成二级级联模型,相似度矩阵进行降维和表征学习处理,转化成低维高阶特征矩阵,最终使用K-means得到准确的社区划分结果。级联结构在保持算法同等深度的情况下,大幅降低了算法时间复杂度。在人工合成数据集和真实数据集上的实验表明,DA-EF与同类算法K-means、DA-EML和CoDDA相比,其标准互信息NMI和模块度Q值高,而且聚类运行时间最少,具有精确度高和效率快的优势。在算法性能实验中,验证了算法的级联结构、自动编码器的深度以及影响力扩散指标的合理性和有效性。  相似文献   

14.
作为一种解决标签模糊性问题的新学习范式, 标记分布学习(LDL)近年来受到了广泛的关注. 为了进一步提升标记分布学习的预测性能, 提出一种联合深度森林与异质集成的标记分布学习方法(LDLDF). 所提方法采用深度森林的级联结构模拟具有多层处理结构的深度学习模型, 在级联层中组合多个异质分类器增加集成的多样性. 相较于其他现有LDL方法, LDLDF能够逐层处理信息, 学习更好的特征表示, 挖掘数据中丰富的语义信息, 具有强大的表示学习能力和泛化能力. 此外, 考虑到深层模型可能出现的模型退化问题, LDLDF采用一种层特征重用机制(layer feature reuse)降低模型的训练误差, 有效利用深层模型每一层的预测能力. 大量的实验结果表明, 所提方法优于近期的同类方法.  相似文献   

15.
吕沈欢  陈一赫  姜远 《软件学报》2024,35(4):1934-1944
在多标记学习中,每个样本都与多个标记关联,关键任务是如何在构建模型时利用标记之间的相关性.多标记深度森林算法尝试在深度集成学习的框架下使用逐层的表示学习来挖掘标记之间的相关性,并利用得到的标记概率表示提升预测精度.然而,一方面标记概率表示与标记信息高度相关,这会导致其多样性较低.随着深度森林的深度增加,性能会下降.另一方面,标记概率的计算需要我们存储所有层数的森林结构并在测试阶段逐一使用,这会造成难以承受的计算和存储开销.针对这些问题,提出基于交互表示的多标记深度森林算法(interactionrepresentation-based multi-label deep forest, iMLDF). iMLDF从森林模型的决策路径中挖掘特征空间中的结构信息,利用随机交互树抽取决策树路径中的特征交互,分别得到特征置信度得分和标记概率分布两种交互表示. iMLDF一方面充分利用模型中的特征结构信息来丰富标记间的相关信息,另一方面通过交互表达式计算所有的表示,从而使得算法无需存储森林结构,大大地提升了计算效率.实验结果表明:在交互表示基础上进行表示学习的i MLDF算法取得了更好的预测性能,...  相似文献   

16.
基于MapReduce与相关子空间的局部离群数据挖掘算法   总被引:1,自引:0,他引:1  
张继福  李永红  秦啸  荀亚玲 《软件学报》2015,26(5):1079-1095
针对高维海量数据,在MapReduce编程模型下,提出了一种基于相关子空间的局部离群数据挖掘算法.该算法首先利用属性维上的局部稀疏程度,重新定义了相关子空间,从而能够有效地刻画各种局部数据集上的分布特征;其次,利用局部数据集的概率密度,给出了相关子空间中的局部离群因子计算公式,有效地体现了相关子空间中数据对象不服从局部数据集分布特征的程度,并选取离群程度最大的N个数据对象定义为局部离群数据;在此基础上,采用LSH分布式策略,提出了一种MapReduce编程模型下的局部离群数据挖掘算法;最后,采用人工数据集和恒星光谱数据集,实验验证了该算法的有效性、可扩展性和可伸缩性.  相似文献   

17.
为利用用户行为挖掘用户的兴趣,提出一种融合用户兴趣表征与注意力机制的推荐算法.利用CVR算法将传统的用户-项目表征转换为用户-兴趣表征;构建一种应用于用户兴趣预测的深度森林模型,引入兴趣簇重要性作为特征选择权重,融合时间注意力机制进行兴趣预测,将用户-兴趣模型结合基于用户的协同过滤算法预测推荐结果.两个数据集上的实验结果表明,该算法能够提高用户兴趣预测准确率,提升推荐效果.  相似文献   

18.
传统的离群检测方法多数源于单个数据集或多数据源融合后的单一数据集,其检测结果忽略了多源数据之间的关联知识和单数据源中的关键信息。为了检测多源数据之间的离群关联知识,提出一种基于相关子空间的多源离群检测算法RSMOD。结合[k]近邻集和反向近邻集的双向影响,给出面向多源数据的对象影响空间,提高了离群对象度量的准确性;在影响空间基础上,提出面向多源数据的稀疏因子及稀疏差异因子,有效地刻画了数据对象在多源数据中的稀疏程度,重新定义了相关子空间的度量,使其能适用于多源数据集,并给出基于相关子空间的离群检测算法;采用人工合成数据集和真实的美国人口普查数据集,实验验证了RSMOD算法的性能并分析了源于多数据集的离群关联知识。  相似文献   

19.
张凌波  刘海 《控制与决策》2019,34(12):2667-2672
为了提高供应链中销量预测的准确性,提出一种改进森林优化算法(Improved forest optimization algorithm,IFOA)来优化销量预测.首先,引入量子系统中的delta势阱模型,使得算法能在充分利用局部最优的同时避免陷入局部最优;其次,引入自适应局部播种步长,从而优化算法的全局和局部寻优速度,保证算法精度;然后,定义森林广域播种中的自适应转移率,有效地平衡森林个体多样性与算法局部收敛能力之间的矛盾;接着,挖掘外部数据作为特征,通过计算每个特征与销量的相关性及其显著性进行特征选择并对历史销量数据进行基于聚合经验模态分解(Ensemble empirical mode decomposition,EEMD)的特征提取;最后,将上述特征用于支持向量回归模型的建立,并使用改进的森林优化算法对模型参数进行优化,最终得到销量的准确预测.  相似文献   

20.
针对无线传感器网络(WSN)节点容易出现故障从而导致网络瘫痪的问题,提出了一种基于改进的深度森林的无线传感器网络故障分类方法;深度森林是基于森林的集成学习方法,其输入是多维特征向量,特征向量将由多粒度扫描和级联森林这两个主要组成部分进行处理,多粒度扫描通过处理数据之间的关系来增强数据表示的能力,级联森林用于分类或预测;针对级联森林部分随着层数的增加可能造成的维数问题进行优化后,将该算法用于故障分类可以提高故障诊断的精确度;在仿真验证阶段,将该算法与深度神经网络(DNN)和支持向量机(SVM)算法进行对比;结果显示,该算法可以准确地识别出不同的故障类型,并且在损坏故障和电源故障的识别达到了最高精度,综合平均精度在98.4%;对偏移故障、漂移故障和通信故障的识别略低于卷积神经网络(CNN)算法,但综合训练时间、参数调节来看,该算法更能满足实际工程的需要。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号