首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 186 毫秒
1.
粗糙集理论作为一种处理不精确和不一致数据的数学工具被广泛应用于特征子集选择和属性约简中.在大多数现存的算法中,属性依赖度被用来度量特征子集的重要性,而依赖度在处理不一致信息系统时会出现找不到任何特征子集的问题.文中讨论了使用属性依赖性作为度量的缺点和不足,引入一种一致性度量,分析了其和依赖性之间的关系,重新定义了信息系统的多余属性和约简的概念,并构造了基于一致性度量的前向贪婪搜索算法.通过UCI数据集合验证了算法能够有效地处理不一致信息系统.  相似文献   

2.
杨震宇  叶军  季雨瑄  敖家欣  王磊 《计算机应用研究》2022,39(4):1118-1123+1131
目前已有蚁群算法优化的特征选择方法,大多采用的是以属性依赖度和信息熵属性重要度作为路径上启发搜索因子,但这类搜索方法在某些决策表中存在算法早熟或搜索到的特征子集包含了冗余特征,从而导致选择精度显著下降。针对此类问题,根据条件属性在分辨矩阵中的占比提出了一种属性重要度的度量方法,以分辨矩阵重要度作为路径上启发因子,设计了一种基于分辨矩阵与蚁群算法优化的特征子集搜索方法。该算法从特征核出发,蚁群依次选择概率大的特征加入特征核集,直至找到最小特征子集算法终止。通过实例验证和UCI数据集实验结果表明,与基于属性依赖度和信息熵属性重要度的特征选择方法相比,在通常情况下,该算法能较小代价找到最小特征子集,并且可以有效减少计算工作量。  相似文献   

3.
针对以依赖性作为属性重要性度量的约简算法效率较低、不能有效处理不一致信息系统的问题,提出一种时间复杂度为O(|A|2|U|)、基于错误分类率(ER)的快速约简算法。根据等价类计算的包含关系和正区域与属性个数的单调关系,采用ER作为属性重要性的度量。在UCI数据集合上测试该算法,结果证明了其有效性。  相似文献   

4.
属性约简是一种重要的数据挖掘方法。为了对混合型信息系统达到更好的属性约简性能,提出一种邻域组合度量的启发式属性约简算法。邻域依赖度是构造混合信息系统属性约简的常用方法,根据粒计算的视角,在混合信息系统中提出邻域知识粒度用于评估属性的粒化能力。将邻域依赖度与邻域知识粒度进行结合,提出混合信息系统下的邻域组合度量,并将该度量方法作为启发式函数,提出一种属性约简算法。实验分析表明,该算法比混合信息系统的其他相关属性约简算法具有更高的约简性能。  相似文献   

5.
在不完备信息系统和模糊决策信息系统的基础上,提出一种基于相容关系的不完备模糊决策信息系统的粗糙集模型,并重新定义了不完备模糊决策信息系统上任意子集的上下近似,给出了基于属性依赖度的启发式知识约简算法,通过实例验证了算法的可行性.  相似文献   

6.
属性约简是机器学习等领域中常用的数据预处理方法。在基于粗糙集理论的属性约简算法中,大多是根据单一的方法来度量属性重要度。为了从多角度对属性达到更为优越的评估效果,首先在已有的模糊邻域粗糙集模型中定义属性依赖度度量,然后根据粒计算理论中知识粒度的概念,在模糊邻域粗糙集模型下提出了模糊邻域粒度度量。由于属性依赖度和知识粒度代表了不同视角的属性评估方法,因此将这两种方法结合起来用于信息系统的属性重要度评估,最后给出一种启发式属性约简算法。实验结果表明,所提出的算法具有较好的属性约简性能。  相似文献   

7.
属性约简是粗糙集理论的重要研究分支,对信息系统进行属性约简有助于提高其数据的分类性能。针对医疗信息系统的多类型复杂数据环境,首先对多种数据类型分别提出了数据对象之间的模糊相似性度量;然后将这些度量方法进行整合,构造出医疗信息系统的一种新的模糊等价关系,并提出相应的模糊粗糙集模型;最后利用模糊粗糙依赖度,提出了医疗信息系统的一种属性约简算法。实验分析证明了所提出的算法具有更高的属性约简性能。  相似文献   

8.
粗糙集的划分贴近度及基于划分贴近度的属性约简算法   总被引:1,自引:0,他引:1  
Rough集理论是近年来发展起来的一种处理不确定、不精确、不完整数据的数学工具.属性约简是粗糙集的核心内容之一.本文提出了一个新的不确定性度量一划分贴近度,并基于划分贴近度分别提出了对一般信息系统和决策信息系统进行属性约简的算法,对决策信息系统进行约简的算法不仅可以对一致决策表进行约简,还可以对不一致决策表进行有效的约简.  相似文献   

9.
为了解决数据挖掘和机器学习领域中连续属性离散化问题,提出一种改进的自适应离散粒子群优化算法。将连续属性的断点集合作为离散粒子群,通过粒子间的相互作用最小化断点子集,同时引入模拟退火算法作为局部搜索策略,提高了粒子群的多样性和寻找全局最优解的能力。利用粗糙集理论中决策属性对条件属性的依赖度来衡量决策表的一致性,从而达到连续属性离散化的目的,最后采用多组数据对此算法的性能进行了检验,并与其他算法做了对比实验,实验结果表明此算法是有效的。  相似文献   

10.
由于无监督环境下特征选择缺少类别信息的依赖,所以利用模糊粗糙集理论提出一种非一致性度量方法DAM(disagreement measure),用于度量任意两个特征集合或特征间引起的模糊等价类含义的差异程度.在此基础上实现DAMUFS无监督特征选择算法,其在无监督条件下可以选择出包含更多信息量的特征子集,同时还保证特征子集中属性冗余度尽可能小.实验将DAMUFS算法与一些无监督以及有监督特征选择算法在多个数据集上进行分类性能比较,结果证明了DAMUFS的有效性.  相似文献   

11.
张学渊  高社生  胡攀 《计算机仿真》2009,26(10):194-197
属性约简是粗糙集理论中一个核心研究问题,在对粗糙集中属性约简相关理论研究的基础上,提出了一种新的基于随机决策信息系统的属性约简算法。新算法充分利用属性依赖度所提供的信息对属性进行排序,并以一定的优化顺序来计算属性子集的信任函数或似真函数。计算结果表明:改进后的新算法计算量大大减小,尤其是当条件属性较多时,计算量的减少更加明显,从而大大提高了计算效率。计算实例验证了该算法的有效性,具有很强的优越性。  相似文献   

12.
In this paper, a novel feature selection method based on rough sets and mutual information is proposed. The dependency of each feature guides the selection, and mutual information is employed to reduce the features which do not favor addition of dependency significantly. So the dependency of the subset found by our method reaches maximum with small number of features. Since our method evaluates both definitive relevance and uncertain relevance by a combined selection criterion of dependency and class-based distance metric, the feature subset is more relevant than other rough sets based methods. As a result, the subset is near optimal solution. In order to verify the contribution, eight different classification applications are employed. Our method is also employed on a real Alzheimer’s disease dataset, and finds a feature subset where classification accuracy arrives at 81.3 %. Those present results verify the contribution of our method.  相似文献   

13.
随着互联网和物联网技术的发展,数据的收集变得越发容易。但是,高维数据中包含了很多冗余和不相关的特征,直接使用会徒增模型的计算量,甚至会降低模型的表现性能,故很有必要对高维数据进行降维处理。特征选择可以通过减少特征维度来降低计算开销和去除冗余特征,以提高机器学习模型的性能,并保留了数据的原始特征,具有良好的可解释性。特征选择已经成为机器学习领域中重要的数据预处理步骤之一。粗糙集理论是一种可用于特征选择的有效方法,它可以通过去除冗余信息来保留原始特征的特性。然而,由于计算所有的特征子集组合的开销较大,传统的基于粗糙集的特征选择方法很难找到全局最优的特征子集。针对上述问题,文中提出了一种基于粗糙集和改进鲸鱼优化算法的特征选择方法。为避免鲸鱼算法陷入局部优化,文中提出了种群优化和扰动策略的改进鲸鱼算法。该算法首先随机初始化一系列特征子集,然后用基于粗糙集属性依赖度的目标函数来评价各子集的优劣,最后使用改进鲸鱼优化算法,通过不断迭代找到可接受的近似最优特征子集。在UCI数据集上的实验结果表明,当以支持向量机为评价所用的分类器时,文中提出的算法能找到具有较少信息损失的特征子集,且具有较高的分类精度。因此,所提算法在特征选择方面具有一定的优势。  相似文献   

14.
近年来,人们越来越关注粗糙集中的属性约简算法,尤其是启发式的约简算法。为了度量属性重要度,人们把各种不同的信息熵模型应用到粗糙集中,同时在信息熵这一理论的基础上得出了许多约简算法,用来解决粗糙集中属性约简的问题。然而,现有的基于信息熵的方法还存在一系列问题。针对这些问题,本文首先将知识粒度与相对决策熵这2个概念结合在一起,从而引入一种新的信息熵模型--粒度决策熵;然后,利用粒度决策熵来度量属性的重要性,并由此得出新的约简算法--ARGDE约简算法;最后,用不同的UCI数据集来做实验,通过与已有的约简算法比较,该算法能够得到更好的实验结果。  相似文献   

15.
本文首先简单分析了几种经典的特征选择方法,总结了它们的不足,然后提出了特征集中度的概念, 紧接着把差别对象对集引入粗糙集并提出了一个基于差别对象对集的属性约简算法,最后把该属性约简算法同特征 集中度结合起来,提出了一个综合性特征选择方法.该综合性方法首先利用特征集中度进行特征初选以过滤掉一些 词条来降低特征空间的稀疏性,然后再使用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结 果表明该综合性方法效果良好.  相似文献   

16.
胡学伟  蒋芸  李志磊  沈健  华锋亮 《计算机应用》2015,35(11):3116-3121
针对目前模糊等价关系所诱导的模糊粗糙集模型不能准确地反映模糊概念范畴中数值属性描述的决策问题,提出一种基于邻域关系的模糊粗糙集模型NR-FRS,给出了该粗糙集模型的相关定义,在讨论模型性质的基础上进行模糊化邻域近似空间上的推理,并分析特征子空间下的属性依赖性;最后在NR-FRS的基础上提出特征选择算法,构建使得模糊正域增益优于具体阈值的特征子集,进而剔除冗余特征,保留分类能力强的属性.采用UCI标准数据集进行分类实验,使用径向基核函数(RBF)支持向量机作为分类器.实验结果表明,同基于邻域粗糙集的快速前向特征选择方法以及核主成分分析方法(KPCA)相比,NR-FRS模型特征选择算法所得特征子集中特征数量依据参数变化更加平缓、稳定.同时平均分类准确率提升最好可以达到5.2%,且随特征选择参数呈现更加平稳的变化.  相似文献   

17.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。首先简单分析了几种经典的特征选择方法,总结了它们的不足,然后提出了类内集中度的概念,紧接着把分层递阶的思想引入粗糙集并提出了一个改进的基于分层递阶的属性约简算法,最后把该约简算法同类内集中度结合起来,提出了一个综合的特征选择方法。该方法首先利用类内集中度进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用所提约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明此种特征选择方法效果良好。  相似文献   

18.
求核和属性约简是粗糙集理论研究的一个核心问题。文中主要针对现有的一些决策表属性约简算法存在的不足,尤其是基于信息熵的属性约简算法在较大数据集上效率不高的问题提出改进。主要通过结合粗糙集的相关理论来改进原有的属性约简算法在求核中的约束条件,进而在原有算法的基础上提出了一种改进算法。在求约简属性集时,利用新提出的约简算法,使计算复杂度降低,同时保持了高效的决策准确率。实验结果表明改进后的决策表属性约简方法能够更加快速有效地找到约简集。  相似文献   

19.
基于Nguyen的粗糙集和布尔推理离散化方法提出一种支持向量机特征选择算法,引入粗糙集的一致度指标控制离散化过程的信息损失,从而删除不相关与冗余的属性,而保留支持向量机所需分类信息。实验结果表明,所提算法提高了SVM分类器的预测精度,缩短了训练时间。  相似文献   

20.
作为粗糙集的一种推广,模糊粗糙集在属性约简中的应用尤为重要.约简规模和约简依赖度作为评判约简性能的两个重要指标,分别对应着约简的效率以及精度.传统的约简算法通常以追求约简的最大依赖度为导向进行寻优,并没有直接考虑约简的规模大小.基于此,强调所得约简的规模大小在约简运算中的重要性,并提出一种基于邻域变异信息的多目标差分算法,在约简运算中将约简的规模也作为单独的优化目标,将属性约简问题转化为多目标优化问题,综合考虑约简在属性数量和依赖度两方面的性能.通过引入目标支配排序,使得可以从属性数量和依赖度误差两方面对所得约简的性能进行约束,并得到目标约束内的约简结果.选取UCI上的数据集进行实验分析,实验结果表明,所提算法可以在目标约束内得到更加全面的约简结果,具有一定的可行性,是一种有效的约简算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号