首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
受特征重要性不平衡的影响,随机森林可能随机抽取到弱特征子集,从而生成“弱决策树”,进而导致模型的收敛速度降低、模型的性能下降。鉴于此,提出融合因子分析的随机森林模型,主要创新在于采用因子分析法构建特征组,再按特征个数比随机抽取特征形成每个分裂节点的候选子集。以模型的分类预测、回归拟合、特征重要性分析的准确率和运行时间为评价指标,选取了9组UCI数据综合考察模型的整体性能,并与决策树、随机森林对比实验。结果表明:融合因子分析的随机森林模型基本消除了准确率低的决策树产生,提高了模型的准确率和收敛速度,泛化性更强,更加有利于高维大数据,可行有效。  相似文献   

2.
针对不满足忠实分布的高维数据分类问题,一种新的基于粒子群算法的马尔科夫毯特征选择方法被提出。它通过有效地提取相关特征和剔除冗余特征,能够产生更好的分类结果。在特征预处理阶段,该算法通过最大信息系数衡量标准对特征的相关度和冗余性进行分析得到类属性的马尔科夫毯代表集和次最优特征子集;在搜索评价阶段,采用新的适应度函数通过粒子群算法选出最优特征子集;用此模型对测试集进行预测。实验结果表明,该算法在12个数据集上具有一定的优势。  相似文献   

3.
基于最大信息系数和近似马尔科夫毯的特征选择方法   总被引:6,自引:0,他引:6  
最大信息系数(Maximum information coefficient,MIC)可以对变量间的线性和非线性关系,以及非函数依赖关系进行有效度量.本文首先根据最大信息系数理论,提出了一种评价各维特征间以及每维特征与类别间相关性的度量标准,然后提出了基于新度量标准的近似马尔科夫毯特征选择方法,删除冗余特征.在此基础上提出了基于特征排序和近似马尔科夫毯的两阶段特征选择方法,分别对特征的相关性和冗余性进行分析,选择有效的特征子集.在UCI和ASU上的多个公开数据集上的对比实验表明,本文提出的方法总体优于快速相关滤波(Fast correlation-based filter,FCBF)方法,与ReliefF,FAST,Lasso和RFS方法相比也具有优势.  相似文献   

4.
杨丰瑞 《计算机应用研究》2020,37(9):2625-2628,2633
高维复杂数据处理是数据挖掘领域中的关键问题,针对现有特征选择分类算法存在的预测精确度失衡、整体分类效率低下等问题,提出了一种结合概率相关性和极限随机森林的特征选择分类算法(P-ERF)。该算法使用充分考虑特征之间相关性与P值结合的特征选择方式,避免了树节点分裂过程中造成的冗余性问题;并以随机树为基分类器、极限随机森林为整体框架,使P-ERF算法获得了更高的精准度和更好的泛化误差。实验结果表明,P-ERF算法相较于随机森林算法、极限随机森林算法,在数据集分类精度与整体性方面均得到良好的效果。  相似文献   

5.
针对传统特征选择中只考虑了特征的相关性和冗余性而忽略了特征间交互作用的问题,提出一种基于交互信息的两阶段特征选择算法(SAMBFC)。通过对称不确定性和强近似马尔可夫毯原理进行无关特征和冗余特征的筛选;利用特征间交互增益和基于相关性特征选择算法构建一种特征间互补性评价方法,选取具有交互作用的冗余特征。在9个不同维度的标准数据集上与8种典型算法进行对比实验和分析,其结果表明,SAMBFC算法所选特征的分类性能以及综合表现明显优于其它算法。  相似文献   

6.
随着信息技术的快速发展,数据中的高维特征极大地增加了产生冗余特征的可能性,冗余特征不仅导致搜索空间增大,而且影响了分类的准确率。针对现有的特征选择算法难以解决高维特征选择问题,提出了基于样本重叠与近似马尔可夫毯的特征选择算法(samples overlapping based modified Markov blanket, SOMMB)。该算法首先融合最大信息系数与改进强近似马尔可夫毯去除冗余特征;其次采用样本重叠策略指导前向搜索的过程,选取相关特征。该算法在10个公开数据集上与目前流行的PGVNS、FCBF-MIC、CFS、mRMR、RF、CBFS、ReliefF以及FFSG算法进行对比实验,SOMMB算法的平均准确率为82.519%,对比FFSG获得的最高准确率提升了4.214%,表明SOMMB算法可以提高分类精度。  相似文献   

7.
葛倩  张光斌  张小凤 《计算机应用》2022,42(10):3046-3053
为解决特征选择ReliefF算法在利用欧氏距离选取近邻样本过程中,算法稳定性差以及选取的特征子集分类准确率低的问题,提出了一种利用最大信息系数(MIC)作为近邻样本选择标准的MICReliefF算法;同时,以支持向量机(SVM)模型的分类准确率作为评价指标,并多次寻优,以自动确定其最优特征子集,从而实现MICReliefF算法与分类模型的交互优化,即MICReliefF-SVM自动特征选择算法。在多个UCI公开数据集上对MICReliefF-SVM算法的性能进行了验证。实验结果表明,MICReliefF-SVM自动特征选择算法不仅可以筛除更多的冗余特征,而且可以选择出具有良好稳定性和泛化能力的特征子集。与随机森林(RF)、最大相关最小冗余(mRMR)、相关性特征选择(CFS)等经典的特征选择算法相比,MICReliefF-SVM算法具有更高的分类准确率。  相似文献   

8.
基因表达谱中存在大量与肿瘤分类无关的基因,严重降低肿瘤诊断的准确率.基因表达谱还存在高维小样本、噪声大等问题,增加肿瘤诊断的难度.为了获取基因数量较少且分类能力较强的信息基因子集,文中提出基于对称不确定性(SU)和支持向量机递归特征消除(SVM-RFE)的信息基因选择方法.首先利用SU评估基因和类标签之间的相关性,根据SU定义近似马尔科夫毯,快速消除大量无关和冗余基因.然后利用SVM-RFE进一步剔除冗余基因,获取有效的信息基因子集.实验表明,文中方法可以在选取维数较少或相等的信息基因子集情况下获取较高的肿瘤分类性能.  相似文献   

9.
随着大数据时代的到来,数据信息呈几何倍数增长。传统的分类算法将面临着极大的挑战。为了提高分类算法的效率,提出了一种基于弱相关化特征子空间选择的离散化随机森林并行分类算法。该算法在数据预处理阶段对数据集中的连续属性进行离散化。在随机森林抽取特征子空间阶段,利用属性向量空间模型计算属性间的相关性,构造弱相关化特征子空间,使所构建的决策树之间相关性降低,从而提高随机森林的分类效果;并通过研究随机森林的并行化策略,结合MapReduce框架,改进并实现了随机森林模型构建过程的双重并行化,进一步改善了算法的计算效率。  相似文献   

10.
针对公共建筑能耗预测模型中影响变量相关性低、冗余性高的问题,提出了基于二氧化碳浓度的公共建筑人员流动率间接测量方法,以提高模型的预测精度,并提出了一种大型公共建筑能耗混合预测模型。首先利用LASSO变量选择算法筛选出与公共建筑能耗相关性高的影响因素,再引入改进的并行排序蚁群优化算法对随机森林预测模型的参数进行优化,进一步提高预测性能。最后,以西安某公共建筑监测数据为例进行预测分析。结果表明,人员流动率对公共建筑能耗预测有着重要的影响,所提模型的泛化能力强、预测精度高,可以为公共建筑节能优化提供有效的数据支撑。  相似文献   

11.
健康监测通常使用大量传感器获取海量的感知数据,由于海量多维数据中存在大量的冗余或干扰,会对监测决策产生负面影响,为此需要对健康监测数据进行特征选择,旨在从数据中剔除多余的和不相关的特征。在现有研究的基础上,提出了特征选择融合方法,该方法通过ReliefF算法进行特征权重计算,并通过LASSO回归模型的计算结果确定特征权重阈值,进行特征初选,降低特征空间的稀疏性,然后利用灰色关联度的属性约简算法来消除冗余,从而获得最优特征子集。在实际多维感知数据集上进行测试,证明该模型可筛选出与目标参量相关性高的特征,降低回归运算的时间,提高回归模型的拟合精度。  相似文献   

12.
李菲  梁振宇 《计算机仿真》2021,38(11):158-161,167
为了解决多线程电子通信网络中大量冗余数据干扰的问题,提出一种基于数据特征相似性及动态频率的多线程电子通信网络高效冗余量消除方法.应用假设法及主动采样法计算数据间的特征相似度,根据初始数据和样本数据的迭代频率,得出基本数据特征收缩量,将其导入至激励函数中,推导得出最终相似特征数据的提取公式;利用相似特征数据间的离散状态分类数据,加快冗余数据消除效率.同时,利用基于数据动态的DYNATABLE消除算法,将网络流量中所有字节值不同的数据片段标记,根据标记对应查找网络中相同字节的正常数据片段,将二者替换,再传输替换后的数据包,完成冗余数据的有效消除.仿真结果证明,上述方法时效性较强可以实时完成转化与消除,算法直观、简便,易于操作,CPU耗用较小、综合性能较强、整体效率优异,有效保证数据信息的完成性.  相似文献   

13.
在预测共享单车需求量的问题上,随机森林算法与其他算法相比具有显著优势.然而在处理存在大量冗余数据的数据集方面,随机森林算法会导致过拟合.为此,论文提出一种基于随机森林的改进算法—FWRF算法,预测共享单车需求量.该算法首先利用相关系数对每个特征进行加权,然后将特征区间划分为高相关区间与低相关区间,让特征选择限制在特定范围,实现降低泛化误差的目标,增强算法的学习性能,提高算法的预测精度.最后,论文将FWRF算法应用到NewYork CityBike的公开数据集上,分析多维异构数据影响下共享单车需求量变化.与原有算法相比,在预测精度上提高了5.1345%,证明了该改进算法的有效性和可行性.  相似文献   

14.
智能客服利用人工智能技术准确回答用户的咨询问题, 良好的句子相似度算法可以提高智能客服中问答的准确度.本文针对金融证券领域客服, 提出了基于多特征融合的句子相似度算法模型, 提高了客服的智能性. 通过矩阵拼接的方式, 融合用户提问语句和知识库语句的词形特征和语义特征, 其中词形特征考虑N-gram相似度、编辑距离、Jaccard相似度三种词形信息, 并针对语义特征提取, 提出了基于多头注意力机制(multi-head attention)的神经网络模型LBMA. 利用上述融合的特征, 运用机器学习分类器判断两个语句是否相似, 并将分类器分类结果作为多特征融合模型的计算结果. 在尽量不改变语义信息的前提下, 通过数据增强(Data Augmentation, DA)技术扩充数据集, 提升了模型泛化能力. 实验结果表明, 与已有方法相比, 该模型在智能客服数据集上能够有效提升相似度计算的准确性, 准确率达到94.69%.  相似文献   

15.
为了提高客服终端数据可利用性,降低冗余数据干扰程度,挖掘潜在客户,制定销售策略,研究一种基于决策树算法的客服终端冗余数据迭代消除方法。采用数据仓库法抽取并集成客服终端数据,对字符类数据进行去停用词和中文分词预处理,对数值类数据进行缺失值填补和离散值删除预处理。构建ID3决策树,分类客服终端数据,计算同一类数据的类间相似度,构建冗余数据判断规则,检测客服终端冗余数据,联合消除器消除冗余数据。实验结果表明:所研究方法应用后,可以消除客服终端冗余数据,空间缩减比更接近冗余率。  相似文献   

16.
构建了一种基于核函数的典型相关分析的特征融合算法。首先,利用核函数将图像矩阵映射到核空间,再抽取同一模式的两组特征向量,在两组特征向量之间建立描述它们的相关性的判据准则函数;然后依此准则函数抽取两组典型投影矢量集;最后通过给定的特征融合策略抽取组合的典型相关特征以用于分类识别。该算法将两组特征向量之间的相关性特征作为有效鉴别信息,既可以很好地融合信息,又可以有效地去除特征之间的信息冗余,并且避免了对映射后的数据矩阵进行分解,从而简化了数据运算。在AR、PIE、ORL、Yale人脸数据库及UCI手写体数字库上的实验结果证明了该方法的有效性和稳定性。  相似文献   

17.
蔡玲  毕克刚  梁卜元  王晗 《微型电脑应用》2022,(11):103-105+110
可再生能源存在多样性,且不同能源采样数据具有冗余性,导致效率评价结果不理想,因此提出一种基于随机森林的可再生能源利用效率评价方法。通过特征选择算法对可再生资源进行数据欠采样,将特征的重要性程度和相关度作为标准对特征进行筛选,删除冗余特征,形成全新的特征子空间。利用随机森林分类模型进行加权重组,完成可再生能源分类。分析不同可再生能源的衡量指标以及影响因素,结合火用算法,组建可再生能源利用效率评价模型,完成利用效率评价。实验结果表明,效率评价结果提升,对不同可再生能源利用效率有所提高。  相似文献   

18.
关注非结构化文本中命名实体属性值的抽取问题.当前主流有监督属性值抽取方法仅使用局部特征,抽取效果有限,开展了利用文本全局特征改善属性值抽取的研究.通过适用于中文属性值抽取的全局特征,用局部特征以外的有价值信息提高抽取效果.据此,提出结合全局特征的感知机学习算法,该算法能够方便地融合文本全局特征,并将全局特征和局部特征统一结合到模型学习过程中,使模型具有更好的特征表示能力.实验结果表明,所提出方法的整体抽取效果高于仅使用局部特征的CRF模型和平均感知机模型.该方法适用于开放领域的属性值获取,具有较好的泛化能力.  相似文献   

19.
近年来,集成学习方法因其在多分类系统中具备良好的泛化性能而成为关注热点,然而,传统采样方法生成的基分类器存在相似度高、集成后泛化能力不足等问题,为此,提出一种基于监督学习的分类器自适应融合方法AEC_SL,该方法先采用高斯混合模型聚类算法将训练集划分为有监督的样本簇,然后在每个类簇上使用随机森林算法得到差异化的分类器,...  相似文献   

20.
提出一种基于Adaboost方法的随机森林销售量预测方法. 首先对销售量的影响因素进行了特征分析,确定了训练数据的特征和维度. 然后采用基于Adaboost的随机森林销量预测方法对特征数据进行训练并给出了预测算法的步骤. 最后使用python进行了仿真实验,实验结果表明,该方法可以有效提高随机森林的回归性能,且预测精度高,具有较强的泛化能力.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号