首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
基因数据的特点是高维度、小样本、大噪声,在处理过程中容易造成维数灾难和过度拟合等问题。针对这种情况提出一种新的基因数据集的特征选择方法,第一步是通过ReliefF算法对基因特征进行权重重要度的筛选;第二步是对筛选过的特征集合进行mRMR算法判断,留下与目标类别高度相关而其间相关性较小的基因特征;第三步利用邻域粗糙集特征选择算法对简化后的基因数据集进行寻优处理,选出最优化的特征基因子集。为了证明新算法的有效性,以SVM为分类器,使用外部交叉验证法对整个过程来计算,从而验证本文新特征选择方法的有效性。  相似文献   

2.
随着互联网和物联网技术的发展,数据的收集变得越发容易。但是,高维数据中包含了很多冗余和不相关的特征,直接使用会徒增模型的计算量,甚至会降低模型的表现性能,故很有必要对高维数据进行降维处理。特征选择可以通过减少特征维度来降低计算开销和去除冗余特征,以提高机器学习模型的性能,并保留了数据的原始特征,具有良好的可解释性。特征选择已经成为机器学习领域中重要的数据预处理步骤之一。粗糙集理论是一种可用于特征选择的有效方法,它可以通过去除冗余信息来保留原始特征的特性。然而,由于计算所有的特征子集组合的开销较大,传统的基于粗糙集的特征选择方法很难找到全局最优的特征子集。针对上述问题,文中提出了一种基于粗糙集和改进鲸鱼优化算法的特征选择方法。为避免鲸鱼算法陷入局部优化,文中提出了种群优化和扰动策略的改进鲸鱼算法。该算法首先随机初始化一系列特征子集,然后用基于粗糙集属性依赖度的目标函数来评价各子集的优劣,最后使用改进鲸鱼优化算法,通过不断迭代找到可接受的近似最优特征子集。在UCI数据集上的实验结果表明,当以支持向量机为评价所用的分类器时,文中提出的算法能找到具有较少信息损失的特征子集,且具有较高的分类精度...  相似文献   

3.
提出基于粗糙集理论属性全局重要度的特征选择方法改进人脸识别中的特征向量的表征能力。以PCA方法得到的特征向量为基础,给出粗糙集的单个特征和特征子集的属性类间分类重要度和属性类内相似重要度的概念。提出基于属性类间分类重要度的属性约简方法,并用属性类内相似重要度进行最后的特征选择,得到进行人脸图像识别分类器的特征向量。新的特征提取方法完全依赖数据本身的先验知识,可选择出最优的特征组合,提高人脸识别率。实验结果表明,与其他方法相比该方法是有效的。  相似文献   

4.
粗糙集属性量化的一个算法   总被引:2,自引:0,他引:2  
利用属性一维数据的特点,提出基于动态聚类和减少不相容性的属性量化算法,具有简明,易实现的特点,算例测试表明了该算法得到的结果比较理想。  相似文献   

5.
特征基因选择在微阵列数据分析中占据着非常重要的作用,好的特征选择方法是提高基因表达数据的分类精度与分类速度的关键之一.联系蚁群算法和粗糙集理论在微阵列数据处理上的优势,文中结合粗糙集理论,对蚁群优化算法模型进行了改进,并将粗糙集的属性依赖度和属性重要度应用到蚁群算法的路径选择及评估中,提出一种新的基因选择方法.该方法实现简单,并可以比较快速地获得最优解,最终选择出较小的并且分类性能较强的特征基因子集.通过对基因数据集的仿真实验表明,该算法是有效可行的.  相似文献   

6.
本文在基于粗糙集理论的最小差异表MDL上,使用增量方式构造了与MDL相类似的简单差异矩阵SDM,以SDM近似约简集为起点对属性子集空间进行前向搜索,提出了一种基于粗糙集的混合特征选择算法。该算法大大提高了特征选择的效率和准确性,适用于数据挖掘的预处理过程。  相似文献   

7.
相容RS理论中的属性约简算法   总被引:7,自引:0,他引:7  
1.引言 Skowron等提出的相容RS理论是经典的RS理论的推广,它用相容关系(tolerance)代替原来的不可分辨关系(indiscernibility),可以发现属性值之间的相似性、滤除属性值之间的微小偏差,提高系统决策的鲁棒性和决策效率。Duntsch、Gediga等从信息论的角度建立了粗糙集理论中的知识与信  相似文献   

8.
白鹤翔  王健  李德玉  陈千 《计算机应用》2015,35(8):2355-2359
针对"大数据"中常见的大规模无监督数据集中特征选择速度难以满足实际应用要求的问题,在经典粗糙集绝对约简增量式算法的基础上提出了一种快速的属性选择算法。首先,将大规模数据集看作一个随机到来的对象序列,并初始化候选约简为空集;然后每次都从大规模数据集中无放回地随机抽取一个对象,并且每次都判断使用当前候选约简能否区分这一对象和当前对象集中所有应当区分的对象,并将该对象放入到当前对象集中,如果不能区分则向候选约简中添加合适的属性;最后,如果连续I次都没有发现无法区分的对象,那么将候选约简作为大规模数据集的约简。在5个非监督大规模数据集上的实验表明,所求得的约简能够区分95%以上的对象对,并且求取该约简所需的时间不到基于区分矩阵的算法和增量式约简算法的1%;在文本主题挖掘的实验中,使用约简后的数据集挖掘出的文本主题同原始数据集挖掘出的主题基本一致。两组实验结果表明该方法能够有效快速对大规模数据集进行属性选择。  相似文献   

9.
一种基于粗糙集启发式的特征选择算法   总被引:1,自引:0,他引:1  
梁琰  何中市 《计算机科学》2007,34(6):162-165
本文基于粗糙集中关于非精确集和精确集理论思想,提出了一个新的特征度量指标,即相对互信息比RMI,由此,设计了一种基于粗糙集的启发式特征选择算法MRMI-UC。首先利用可辨识矩阵,计算出条件属性相对于决策属性的核,以核形成当前候选特征子集作为基准点,以最大化相对互信息和不确定性系数为原则,筛选剩余特征。通过对比实验,结果表明,本文提出的算法在多数情况下能够得到较优的特征子集,算法是有效的,切实可行的。  相似文献   

10.
高维网络数据中的无关属性和冗余属性会导致入侵检测速度慢及效率低下。为解决该问题,提出一种基于快速属性约简的网络入侵特征选择方法。以网络数据的条件属性与类别属性之间的互信息为度量去除无关属性,采用基于粗糙集正区域的属性重要性计算公式作为启发信息,设计一种快速属性约简算法去除网络数据的冗余属性,实现网络入侵特征子集的优化选择。在KDD CUP1999数据集上的仿真实验结果表明,该方法能有效去除网络数据中的无关属性和冗余属性,具有较高的入侵检测率和较低的误报率。  相似文献   

11.
一种增量式属性约简算法   总被引:1,自引:1,他引:0  
文章基于粗糙集理论提出了一种新的增量式属性约简算法。当信息系统的对象和决策属性不变而不断增加条件属性时,通过该算法可动态地实现属性约简,由该算法得到的属性约简具有一定的实用价值。通过实例验证了该算法的正确性和有效性。  相似文献   

12.
基于相容矩阵的改进属性约简算法   总被引:1,自引:0,他引:1       下载免费PDF全文
原属性约简算法在计算相容关系时,存在大量重复计算,从而导致时间复杂度为O(|C|3|U|2)。针对该问题,基于不完备决策表,提出时间复杂度为O(|U|2)的高效相容矩阵计算算法,在此基础上,设计改进的基于相容矩阵的属性约简算法。通过实例证明,当空间复杂度相同时,改进算法的时间复杂度从原有O(|C|3|U|2)降为O(|C|2|U|2)。  相似文献   

13.

A fundamental problem in data mining is whether the whole information available is always necessary to represent the information system (IS). Reduct is a rough set approach in data mining that determines the set of important attributes to represent the IS. The search for minimal reduct is based on the assumption that within the dataset in an IS, there are attributes that are more important than the rest. An algorithm in finding minimal reducts based on Propositional Satisfiability (SAT) algorithm is proposed. A branch and bound algorithm is presented to solve the proposed SAT problem. The experimental result shows that the proposed algorithm has significantly reduced the number of rules generated from the obtained reducts with high percentage of classification accuracy.  相似文献   

14.
基于遗传算法的蛋白质质谱数据特征选择   总被引:2,自引:1,他引:1       下载免费PDF全文
李义峰  刘毅慧 《计算机工程》2009,35(19):192-194
针对蛋白质质谱数据在降维、分类及生物标记物识别过程中存在的问题,提出一种基于遗传算法的特征选择方法,介绍几种常用的相关策略,包括基于排列和精英保留的随机通用采样选择策略和基于自适应变肄率的均匀变异策略,给出2个适应度函数——封装器函数与多变元筛选器函数,将它们引入遗传算法中,并进行性能测试与比较。实验结果表明,基于封装器的遗传算法性能优于其他特征选择算法,而基于多变元筛选器的遗传算法性能优于单变元筛选器算法。  相似文献   

15.
针对启发式约简算法难以获得最小约简的问题,研究属性之间的排斥与吸引等关联特性,给出属性重要度计算指数。在此基础上,结合属性频率方法,提出基于属性关联的启发式约简算法。该算法以最小约简为目标,采取兼顾单个属性的辨识能力以及属性之间关联的约简策略。实验结果表明,该算法比属性频率方法以及一些同类算法具有更少的属性启发次数,计算结果大部分为最小约简。  相似文献   

16.
研究互信息理论,针对其不足引进粗糙集并给出一个基于关系积理论的属性约简算法,以此为基础提出一个适用于海量文本数据集的特征选择方法。该方法使用互信息进行特征初选,利用所给的属性约简算法消除冗余,从而获得具有代表性的特征子集。实验结果表明,该特征选择方法效果良好。  相似文献   

17.
基于小生境遗传算法的粗糙集属性约简方法   总被引:3,自引:1,他引:2  
王杨 《计算机工程》2008,34(5):66-67,7
针对遗传算法在全局优化问题中出现的早熟和收敛速度慢的问题,提出一种基于小生境遗传算法的粗糙集属性约简算法,采用基于淘汰相似结构机制的小生境技术,通过引入罚函数的方法调整个体的适应度,提高全局搜索能力。实验证明该算法是有效的,并能求解出信息系统中多组不同的最小约简,为决策支持和数据挖掘等提供更多信息。  相似文献   

18.
朱颢东  钟勇 《计算机工程》2010,36(19):39-41
传统特征选择方法选出的特征子集存在冗余,并且不具备较好的代表性。针对该问题,提出基于粗糙集与泛系等价算子的特征选择方法。利用基于最小词频的文档频提取初始特征,通过泛系等价算子对粗糙集进行扩展,并给出属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明,该方法具有较高的准确率和召回率。  相似文献   

19.
分类问题的一种可伸缩特征选择算法   总被引:4,自引:0,他引:4  
张巍  邹翔  吴晓如 《计算机学报》2005,28(7):1223-1229
特征选择是数据挖掘分类中的一个重要问题.该文推导出一种新的衡量特征与类别相关度的测度SCD即描述特征取值序列类分布的CV系数,利用该测度给出一种线性的可伸缩特征选择算法StaFSOS,并证明了在类别数为2时,SCD测度满足分支界限法的单调性;给出了StaFSOS的一个完备形式——BBStaFS.在12个标准数据集中,StaFSOS算法得出的结果和目标集几乎一致,而StaFSOS的效率高于其它算法;而在另1个中,BBStaFS算法得出了准确结果.在用1000个样本20个特征的真实数据进行的测试中,StaFSOS运行时间是目前较快的GRSR的1/2,得出的特征集准确有效.  相似文献   

20.
属性及属性的约简是Rough Set理论的核心内容之一,找到关键属性和属性值能使决策表有效地进行简化,本文利用Rough Set理论中关于相对正域的概念,给出了一种求最少属及最小属性值(即核值表)的算法,并通过理论和实践证明了其正确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号