首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 38 毫秒
1.
随着信息技术的快速发展,数据中的高维特征极大地增加了产生冗余特征的可能性,冗余特征不仅导致搜索空间增大,而且影响了分类的准确率。针对现有的特征选择算法难以解决高维特征选择问题,提出了基于样本重叠与近似马尔可夫毯的特征选择算法(samples overlapping based modified Markov blanket, SOMMB)。该算法首先融合最大信息系数与改进强近似马尔可夫毯去除冗余特征;其次采用样本重叠策略指导前向搜索的过程,选取相关特征。该算法在10个公开数据集上与目前流行的PGVNS、FCBF-MIC、CFS、mRMR、RF、CBFS、ReliefF以及FFSG算法进行对比实验,SOMMB算法的平均准确率为82.519%,对比FFSG获得的最高准确率提升了4.214%,表明SOMMB算法可以提高分类精度。  相似文献   

2.
针对高维小样本的DNA微阵列数据多分类问题,提出一种基于ReliefF和蚁群算法的特征基因选择方法(ReliefF and Ant Colony Optimization, ReFACO)。该方法首先采用ReliefF算法评估特征权重,根据阈值筛选出无关基因;然后引入改进的蚁群算法,在迭代改进的过程中寻找最优基因子集;最后利用经典分类算法对维数约简后的数据分类识别。经实验证明,该方法可以有效地剔除无关和冗余基因,并利用较少特征基因达到较高多分类效果。  相似文献   

3.
ReliefF算法通过多次迭代采样样本与同类近邻样本和反类近邻样本,计算出差异系数作为样本属性权值的方式,挑选出权值高的特征,从而完成特征选择任务。但是ReliefF算法从算法本身角度无法去除冗余特征,权值大于分类阈值的特征将会被保留下来。笔者提出一种分阶段的特征提取方法,从横向和纵向两个维度对特征进行选择。仿真结果表明,与ReliefF算法相比,在不影响分类准确率的前提下,去除冗余特征,进一步提高了特征选择的有效性。  相似文献   

4.
葛倩  张光斌  张小凤 《计算机应用》2022,42(10):3046-3053
为解决特征选择ReliefF算法在利用欧氏距离选取近邻样本过程中,算法稳定性差以及选取的特征子集分类准确率低的问题,提出了一种利用最大信息系数(MIC)作为近邻样本选择标准的MICReliefF算法;同时,以支持向量机(SVM)模型的分类准确率作为评价指标,并多次寻优,以自动确定其最优特征子集,从而实现MICReliefF算法与分类模型的交互优化,即MICReliefF-SVM自动特征选择算法。在多个UCI公开数据集上对MICReliefF-SVM算法的性能进行了验证。实验结果表明,MICReliefF-SVM自动特征选择算法不仅可以筛除更多的冗余特征,而且可以选择出具有良好稳定性和泛化能力的特征子集。与随机森林(RF)、最大相关最小冗余(mRMR)、相关性特征选择(CFS)等经典的特征选择算法相比,MICReliefF-SVM算法具有更高的分类准确率。  相似文献   

5.
传统的ReliefF算法使用二值法不能体现离散特征差异大小,且不能去除冗余特征。针对这种情况提出了mRMR-ReliefF特征选择算法。该算法利用概率弥补特征差异度量上的不足,提出新的差异函数。此函数使提取出的特征更能体现文本的类内相关性和类间差异性。该算法还结合了词间相关性。词间相关性在考虑选择和类别相关性大的特征词的同时还考虑了特征冗余的消除。通过三种算法的对比实验,表明该算法为文本分类提供了更有效的特征子集。  相似文献   

6.
针对特征选择中存在数据缺乏类别信息的问题,提出一种新型的基于改进ReliefF的无监督特征选择方法UFS-IR.由于ReliefF类算法存在小类样本抽样概率低、无法删除冗余特征的缺陷,该方法以DBSCAN聚类算法指导分类,通过改进抽样策略,使用调整的余弦相似度度量特征间的相关性作为去冗余的凭据.实验表明UFS-IR可以有效缩减数据维度的同时保证特征子集的最大相关最小冗余性,具有很好的性能.  相似文献   

7.
妊娠期肝内胆汁淤积症(ICP)是妊娠期严重危害母婴的并发症,原始的ICP数据集中含有大量的生物标志物信息,特征间通常会存在相关性,且不同妊娠结局间的人数差异较大.论文针对ICP数据集的高冗余和非平衡性,提出了一种新的特征选择算法—SC-ReliefF.SC-ReliefF算法在ReliefF的基础上,根据类内平均距离提出了新的样本选择方法,能很好地适应非平衡数据的特点;同时为了减少特征冗余,SC-ReliefF算法引入余弦相似度,将其作为特征冗余度的度量方式,提出一种去冗余方法,能够得到更小的特征子集.在医院提供的临床数据实验表明,SC-ReliefF算法与ReliefF、mRMR和RS-ReliefF相比得到的ICP特征子集规模较小,且在SVM和BP-NN上具有较好的分类效果,能够提升学习的效率.  相似文献   

8.
随机森林(random forest,RF)算法虽应用广泛且分类准确度很高,但在面对特征维度高且不平衡的数据时,算法分类性能被严重削弱。高维数据通常包含大量的无关和冗余的特征,针对这个问题,结合权重排序和递归特征筛选的思想提出了一种改进的随机森林算法RW_RF(ReliefF&wrapper random forest)。首先引用ReliefF算法对数据集的所有特征按正负类分类能力赋予不同的权值,再递归地删除冗余的低权值特征,得到分类性能最佳的特征子集来构造随机森林;同时改进ReliefF的抽样方式,以减轻不平衡数据对分类模型的影响。实验结果显示,在特征数目很多的数据集中,改进算法的各评价指标均高于原算法,证明提出的RW_RF算法有效精简了特征子集,减轻了冗余特征对模型分类精度的影响,同时也证明了改进算法对处理不平衡数据起到了一定的效果。  相似文献   

9.
SNP数据在人类遗传病诊断与治疗中存在重要作用,但SNP原始数据存在大量冗余,因此需要选择出信息量大的SNP,完成SNP数据的降维.针对常用聚类算法应用到信息SNP选择时未考虑单个SNP与SNP子集之间相似度的问题,采用一种新的相似度度量方法,提出了一种改进的聚类算法K-MIGS,并将其应用到SNP选择中.K-MIGS算法解决了传统K-means不能挖掘出SNP位点与SNP子集之间的强相关性问题,并在医院提供的临床数据实验中表明,K-MIGS具有更高的非信息SNP子集重构度.最后使用支持向量机、决策树和神经网络对构造的SNP子集进行分类实验,对比K-means、特征加权K-means、ReliefF和MCMR,结果表明K-MIGS分类准确率和F1指标上提升了10%和15%,充分说明K-MIGS在信息SNP选择中具有更好的效果.  相似文献   

10.
融合文本和图像的多模态信息相对于单模态可以提升灾害事件分析准确率。但是已有的工作多数将文本特征和图片特征进行简单的融合,在提取、融合特征的时候造成特征的冗余,同时忽略了模态之间的联系,没有考虑到图像和文本之间特征的相关性。为此,本文分析和研究目前流行的多模态融合算法,提出一种拥抱融合的多模态灾害事件分析算法。首先将文本特征和图像的特征向量互相对比,考虑文本和图像特征之间的相关性。然后基于多项抽样,剔除冗余的特征,融合文本特征和图像特征。实验结果表明,拥抱融合在Crisis MMD2.0数据集上实验1的2个任务的分类效果准确率分别高达88.2%、85.1%,都明显优于其他多模态融合模型,表明了该模型的有效性。同时第2个实验也验证了拥抱模型对于不同文本和图像深度学习模型的适用性。  相似文献   

11.
关健  韩飞  杨普秀 《计算机工程》2013,(11):187-190,196
为了以较少冗余的特征基因得到较高的分类准确率,提出一种基因选择算法。通过分析基因对不同类别间的判别熵信息,剔除大量的冗余基因,以形成一个初选基因库。在初选基因库中,运用粒子群优化算法结合基因组,对不同类别问的判别熵信息和样本分类准确率进行最优基因子集选择。在2组基因微阵列数据上的实验结果表明,该算法不仅能够获取较少冗余的可解释基因子集,而且对最终选择出的特征基因也能获得较高的样本识别率。  相似文献   

12.
事件抽取是自动内容抽取(Automatic Content Extraction,ACE)会议评测的任务之一,事件要素识别是事件抽取的一个子任务。分析了事件抽取和事件要素识别的研究现状,提出了一种基于特征加权的事件要素识别算法(Feature Weighting Based Event Argument Identification,FWEAI)。该算法首先对分类算法中的ReliefF特征选择算法进行改进,将其应用于聚类算法中。改进的ReliefF算法(FWA)根据各个特征对聚类的不同贡献分配不同的权值,然后采用KMeans算法对事件要素进行聚类。实验结果表明,FWEAI算法可以提高事件要素识别的准确率。  相似文献   

13.
针对蜜罐中数据分析系统的薄弱性,提出了基于PCA和改进的ReliefF方法的告警日志分析系统。通过主成分分析,去除特征之间的冗余性,能够有效降低算法的复杂性,再利用改进的ReliefF算法,选择出最能代表样本的特征,构成有效特征子集,实现特征的降维。该方法能够在保证较高分类精度的同时,显著提高分类速度,并在一定程度上实现了数据分析的智能化和自动化,实验结果表明了其正确性。  相似文献   

14.
针对高维度小样本数据在特征选择时出现的维数灾难和过拟合的问题,提出一种混合Filter模式与Wrapper模式的特征选择方法(ReFS-AGA)。该方法结合ReliefF算法和归一化互信息,评估特征的相关性并快速筛选重要特征;采用改进的自适应遗传算法,引入最优策略平衡特征多样性,同时以最小化特征数和最大化分类精度为目标,选择特征数作为调节项设计新的评价函数,在迭代进化过程中高效获得最优特征子集。在基因表达数据上利用不同分类算法对简化后的特征子集分类识别,实验结果表明,该方法有效消除了不相关特征,提高了特征选择的效率,与ReliefF算法和二阶段特征选择算法mRMR-GA相比,在取得最小特征子集维度的同时平均分类准确率分别提高了11.18个百分点和4.04个百分点。  相似文献   

15.
在分类问题中,数据之间存在的大量冗余、不相关的特征不仅不能增加分类准确率,反而会降低分类算法执行的速度。特征选择通过最大化分类正确率和最小化特征数来解决这个问题,由于这是两个相互矛盾的目标,因此可以将特征选择问题视为一种多目标优化问题。为了提升特征选择的效率,提出了一种基于Knee Points的改进多目标人工蜂群算法的特征选择方法(artificial bee colony algorithm based on Knee Points,KnABC),设计了一种快速识别Knee Points的方法,并改进了引领蜂和引领蜂算子。与其他经典多目标算法在11个UCI测试数据集上的特征选择实验结果表明,提出的算法在减小分类特征数、增大分类结果准确率方面具有显著效果。  相似文献   

16.
为了有效解决打印文件机源认证问题,提出了一种基于统计纹理特征选择的打印文件机源认证方法。综合考虑打印字符图像的空间域和时频域特性,将GLCM和DWT统计纹理特征进行组合,运用ReliefF算法实现组合特征的初选,二次特征选择使用SVM-RFE算法。文中实验结果表明,在英文相同字有重复样本集和中文不同字无重复样本集上的分类准确率分别为95.20%和75.00%;特征组合与特征选择有利于提高打印文件机源认证的分类鉴别性能。  相似文献   

17.
分类问题普遍存在于现代工业生产中。在进行分类任务之前,利用特征选择筛选有用的信息,能够有效地提高分类效率和分类精度。最小冗余最大相关算法(mRMR)考虑最大化特征与类别的相关性和最小化特征之间的冗余性,能够有效地选择特征子集;但该算法存在中后期特征重要度偏差大以及无法直接给出特征子集的问题。针对该问题,文中提出了结合邻域粗糙集差别矩阵和mRMR原理的特征选择算法。根据最大相关性和最小冗余性原则,利用邻域熵和邻域互信息定义了特征的重要度,以更好地处理混合数据类型。基于差别矩阵定义了动态差别集,利用差别集的动态演化有效去除冗余属性,缩小搜索范围,优化特征子集,并根据差别矩阵判定迭代截止条件。实验选取SVM,J48,KNN和MLP作为分类器来评价该特征选择算法的性能。在公共数据集上的实验结果表明,与已有算法相比,所提算法的平均分类精度提升了2%左右,同时在特征较多的数据集上能够有效地缩短特征选择时间。所提算法继承了差别矩阵和mRMR的优点,能够有效地处理特征选择问题。  相似文献   

18.
李欣倩  杨哲  任佳 《测控技术》2022,41(2):36-40
根据朴素贝叶斯算法的特征条件独立假设,提出一种基于互信息和层次聚类双重特征选择的改进朴素贝叶斯算法。通过互信息方法剔除不相关的特征,然后依据欧氏距离将删减后的特征进行分层聚类,通过粒子群算法得到聚类簇的数量,最后将每个聚类簇中与类别互信息最高的特征合并为特征子集,并由朴素贝叶斯算法得到分类准确率。根据实验结果可知,该算法可以有效减少特征之间的相关性,提升算法的分类性能。  相似文献   

19.
针对模式分类中特征选择问题,为去除冗余特征,提高分类准确率,提出一种基于ReliefF算法、Fisher比率算法和马氏距离算法的多准则排序融合的特征选择方法。动态结合上述3种单准则特征选择法的优点,实现对多个评价准则的综合利用。以Ionosphere标准数据集和高速列车转向架故障数据集为研究对象进行实验仿真,仿真结果表明,相比于单准则特征选择法,该方法能更有效地降低特征维数,具有更高的分类性能。  相似文献   

20.
标准支持向量机结合封装式特征选择具有冗余特征多、分类准确率低的不足,为此,提出基于改进哈里斯鹰算法的特征选择同步优化策略。为改进特征子集选取能力和支持向量机的分类准确率,利用混沌映射、能量因子非线性调整和小孔成像对立学习对哈里斯鹰算法进行改进,将改进哈里斯鹰算法用于SVM参数调整和特征子集选取同步优化问题。实验结果表明,改进算法能够在降低特征维度的情况下实现更高的分类准确率,实现同步优化效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号