首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 203 毫秒
1.
传统启发式正域属性约简算法在每次迭代的过程中需要添加当前正域依赖度最大的属性进入已选定的特征属性子集,算法迭代次数多且效率低,难以应用于高维大规模数据集的特征选择中。针对上述问题,研究决策系统中正域之间的单调关系,给出了多尺度属性粒(MSAG)的形式化描述,提出了一种基于多尺度属性粒的快速正域约简算法(MAG-QPR)。由于多尺度属性粒包含多个属性,可以对已选定的特征属性子集提供较大的正域,因此,通过每次迭代添加MSAG,可以达到减少迭代次数和使选定的特征属性子集能更快地趋近于条件属性全集的正域分辨能力的目的,从而提高了启发式正域约简算法的效率。在实验部分,选取8组UCI数据进行实验,对于数据集Lung Cancer、Flag和German,MAG-QPR与基于正向近似的正域保持属性约简算法(FSPA-PR)、基于正向近似的条件熵属性约简算法(FSPA-SCE)、后向贪婪正域保持属性约简算法(BGRAP)和后向贪婪启发式广义决策保持属性约简算法(BGRAG)的运行时间加速比分别为9.64、15.70、5.03、2.50;3.93、7.55、1.69、4.57;3.61、6.49、1.30、9.51。实验结果表明,所提算法MAG-QPR提高了算法效率,具有更好的分类精度。  相似文献   

2.
决策域分布保持的启发式属性约简方法   总被引:1,自引:0,他引:1  
马希骜  王国胤  于洪 《软件学报》2014,25(8):1761-1780
在决策粗糙集中,由于引入了概率阈值,属性增加或减少时,正域或者非负域有可能变大、变小或者不变,即属性的增减与决策域(正域或非负域)之间不再具有单调性.分析结果表明,现有的基于整个决策域的属性约简定义可能会改变决策域.为使决策域保持不变,引入了正域分布保持约简与非负域分布保持约简的概念.此外,决策域的非单调性使得属性约简算法必须检查一个属性集合的所有子集.为了简化算法设计,提出了正域和非负域分布条件信息量的定义,并证明其满足单调性,从而为设计决策域分布保持约简的启发式计算方法提供了理论基础.为了进一步获得最小约简,提出一种基于遗传算法的决策域分布保持启发式约简算法,并在两种单调的决策域分布条件信息量基础上构造了新算子,即修正算子,确保遗传算法找到的是约简而不是约简的超集.对比实验从分类正确率与误分类代价两个方面都反映了决策域分布保持约简定义的合理性,并且,所提出的遗传算法在大多数情况下都找到了最小约简.  相似文献   

3.
属性约简是粗糙集理论的核心内容之一。通过对多种约简方法进行比较,为了得到更好的结果,在传统基于属性依赖度的约简方法基础上,定义更精确的强化正域概念。通过对边界域的精确划分,得出各条件属性对决策属性的强化依赖度,并用自顶向下的启发式搜索算法得到约简结果。采用UCI标准数据集对基于强化正域约简方法REPR进行测试,约简数据后构建的决策树规模小,分类精度高。实验结果表明,相比于经典方法,REPR能更有效地对决策表进行属性约简。  相似文献   

4.
鲍迪  张楠  童向荣  岳晓冬 《计算机应用》2019,39(8):2288-2296
实际应用中存在大量动态增加的区间型数据,若采用传统的非增量正域属性约简方法进行约简,则需要对更新后的区间值数据集的正域约简进行重新计算,导致属性约简的计算效率大大降低。针对上述问题,提出区间值决策表的正域增量属性约简方法。首先,给出区间值决策表正域约简的相关概念;然后,讨论并证明单增量和组增量的正域更新机制,提出区间值决策表的正域单增量和组增量属性约简算法;最后,通过8组UCI数据集进行实验。当8组数据集的数据量由60%增加至100%时,传统非增量属性约简算法在8组数据集中的约简耗时分别为36.59 s、72.35 s、69.83 s、154.29 s、80.66 s、1498.11 s、4124.14 s和809.65 s,单增量属性约简算法的约简耗时分别为19.05 s、46.54 s、26.98 s、26.12 s、34.02 s、1270.87 s、1598.78 s和408.65 s,组增量属性约简算法的约简耗时分别为6.39 s、15.66 s、3.44 s、15.06 s、8.02 s、167.12 s、180.88 s和61.04 s。实验结果表明,提出的区间值决策表的正域增量式属性约简算法具有高效性。  相似文献   

5.
基于正域的属性约简算法是利用"下近似"思想,仅考虑被正确区分样本数的约简算法。借鉴"上近似"的思想,利用"邻域信息粒"的概念定义了区分对象集,探讨了其基本性质,并提出了基于区分对象集的属性重要度度量及启发式属性约简算法。该约简算法既考虑信息决策表的相对正域,也考虑以核属性为启发信息逐个增加条件属性时对边界域样本的影响。通过实例分析,说明了所提算法的可行性,并且以6个UCI标准数据集为实验对象,与基于正域的属性约简算法进行对比实验。实验结果说明,采用提出的约简算法得到的约简属性集,与基于正域的属性约简算法相比,在进行分类任务时的分类精度能够保持不变或有所提高。  相似文献   

6.
基于模糊粗糙依赖度的连续值属性约简   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统的离散化技术所造成的信息丢失问题,提出了利用模糊粗糙集理论来进行属性约简的方法。描述了模糊等价关系下的粗糙集模型,定义了正域、依赖度等概念,提出了基于模糊粗糙依赖度的属性约简算法,该方法比传统属性约简方法具有更好的时间复杂性,并用实例证明了该算法的可行性。  相似文献   

7.
邻域粗糙集是数值型属性数据处理的有效工具.基于邻域粗糙集,传统依赖度及其约简未考虑邻域覆盖的绝对结构,由此文中建立加权依赖度及其启发式约简算法.首先,提出加权依赖度并得到其度量改进性与粒化单调性,定义相关的属性约简.然后,分析邻域半径的自适应取值,构造基于加权依赖度的启发式约简算法(NWDR).最后,在UCI数据集上进行对比实验,验证加权依赖度的单调性与NWDR的有效性.实验证明,加权依赖度改进传统依赖度的不确定性表示能力,NWDR具有较高的分类准确率与较强的应用适应性.  相似文献   

8.
基于邻域粗糙集的符号与数值属性快速约简算法   总被引:6,自引:0,他引:6  
粗糙集理论被广泛应用于属性约简,算法复杂性是制约约简应用于大样本知识发现的主要问题,尤其是邻域模型下的约简问题.本文分析邻域粗糙集模型的数学性质,利用正域与属性集的单调关系,构造基于属性依赖度和前向搜索策略的快速算法.该算法降低样本比较次数,提高计算效率.实验分析表明该算法的有效性.  相似文献   

9.
针对集值信息系统正域约简算法在大规模数据集下的运行效率问题,提出一种基于启发式的集值信息系统快速正域约简算法。通过研究属性和对象在约简过程中对算法运行效率产生的影响,在集值信息系统中引入属性无关性和属性重要度保序性的相关定义,介绍了使得算法运行效率提升的相关定理、快速算法和应用实例。通过实验对提出算法的有效性进行分析和验证。实验表明,提出算法的运行效率优于原始算法的运行效率。  相似文献   

10.
粗糙集理论是一种有效的信息处理工具,属性约简是粗糙集理论研究的一个核心内容。为了能够较为有效地获得不相容决策表较优的属性约简,在对文献[7]中属性约简算法分析的基础上,根据不相容决策表约简不改变决策表正域的原则,仅考虑相对差异比较表中与正域相关的实例对,同时结合属性重要性作为特征选取的启发式信息,提出了一种改进的启发式属性约简算法。该算法在不增加算法时间复杂度的前提下能够处理不相容决策表。最后,通过实例完整演示了该方法,表明该算法是有效的。  相似文献   

11.
粗糙集理论是一种有效的信息处理工具,属性约简是粗糙集理论研究的一个核心内容.为了能够较为有效地获得不相容决策表较优的属性约简,在对文献[7]中属性约简算法分析的基础上,根据不相容决策表约简不改变决策表正域的原则,仅考虑相对差异比较表中与正域相关的实例对,同时结合属性重要性作为特征选取的启发式信息,提出了一种改进的启发式属性约简算法.该算法在不增加算法时间复杂度的前提下能够处理不相容决策表.最后,通过实例完整演示了该方法,表明该算法是有效的.  相似文献   

12.
属性约简是粗糙集理论中最重要的研究内容之一。在决策粗糙集中,学者提出了多种属性约简的定义,其中包括保持所有对象正决策不变的约简定义。针对该约简定义,为了高效地获取约简集,设计了一种启发式函数 ——决策重要度,这种启发式函数根据每个属性正决策对象集合的大小来定义其重要性,正决策对象集合越大表示重要性越高,由此构造了基于决策重要度的启发式属性约简算法。该算法的优点是通过对属性决策重要度的排序,确定了一个搜索方向,避免了属性的组合计算,减少了计算量,能够找出一个较小的约简集。实验结果表明,该算法是有效的,能够得到较好的约简效果。  相似文献   

13.
一种基于Rough集理论的属性约简启发式算法   总被引:9,自引:1,他引:9  
属性约简是知识发现中的关键问题之一.为了能够有效地获取决策表中属性的最小相对约简,在Rough集理论的基础上构造了一个新的算子,将信息论角度定义的属性的重要性作为启发式信息,来描述在决策表中条件属性所提供的知识对决策属性的影响;并采用宽度优先搜索策略,提出了一种新的属性约简启发式算法.以原始条件属性集为起点并结合算子,通过向属性核的递减式逼近,得到属性的最小相对约简.实例分析表明,该算法能有效地对决策表属性进行约简.  相似文献   

14.
在不一致决策表中,以知识的包含度为基础,将一致和不一致对象分开,定义了一种新的属性重要性;为克服区分矩阵法时间复杂度随系统大小增加而指数增长的缺陷,给出分布约简的数学判定定理,提出了一种求分布约简的启发式方法。实例验证分析表明,新的属性重要性是一种更有效的启发式信息,该方法时间复杂度较低,有助于搜索最小或次优约简。  相似文献   

15.
为了获得决策表中更好的属性约简,提出一种信息增益引导的蜂群优化算法;该算法以属性的信息熵为基础构造条件属性与决策属性间的互信息,用待选条件属性引起的信息增益作为引导蜜蜂搜索的启发信息,最终求得属性约简集;对UCI数据库多个数据集的测试结果表明,与其它基于群智能的属性约简算法相比,该算法获得最小属性约简的机率提高到90%以上,同时较对比算法的计算时间少耗费至少10%。  相似文献   

16.
一种基于属性重要性的启发式约简算法   总被引:2,自引:0,他引:2  
属性约简是知识发现中的关键问题之一.为了能够有效地获取决策表中条件属性集的最小相对约简,本文首先利用代数方法描述决策表中的属性的重要性,提出了限制正域的概念,得到了关于限制正域的若干结果,并据此提出一种改进的属性约简算法,即以属性核为起点并结合算子,通过向属性核不断添加重要程度最大的属性,并利用已求得的正区域和限制正域使处理数据的范围不断缩小从而减少求约简的时间. 该算法能够节省得到决策表的最小约简的时间并能得到所有相对约简.实例分析也验证了该算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号