首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
连续值属性决策表中的可变精度粗糙集模型及属性约简   总被引:2,自引:0,他引:2  
属性约简是粗糙集理论研究的一个核心问题.为了有效地处理决策表中连续值属性约简,提出了连续值属性决策表中的可变精度粗糙集模型以及基于此模型的连续值属性约简算法.仿真实验结果表明,该算法可以对连续值属性进行约简,而且比经典粗糙集相关方法在处理连续值属性约简方面更有效.  相似文献   

2.
基于粗糙集的启发式属性约简算法   总被引:1,自引:0,他引:1  
对现有启发式属性约简算法进行分析,通过实例说明一般启发式算法求得的相对约简有冗余属性存在的问题.针对这一不足,利用粗糙集理论中的条件熵作为启发信息,来缩小搜索空间,并在算法中加入消除冗余属性的二次约简过程,得到一种改进的启发式属性约简算法.提供了实例分析,验证了该改进算法具有较好的约简效果.  相似文献   

3.
区间值属性决策树学习算法*   总被引:8,自引:0,他引:8  
王熙照  洪家荣 《软件学报》1998,9(8):637-640
该文提出了一种区间值属性决策树的学习算法.区间值属性的值域不同于离散情况下的无序集和连续情况下的全序集,而是一种半序集.作为ID3算法在区间值意义下的推广,算法通过一种分割信息熵的极小化来选取扩展属性.通过非平稳点分析,减少了分割信息熵的计算次数,使算法的效率得到了提高.  相似文献   

4.
一种连续值属性约简方法ReCA   总被引:1,自引:1,他引:0  
属性约简是Rough集理论的主要应用和研究内容之一.现有的各种属性约简方法大多适用于离散值属性.对于连续值属性的数据处理,通常做法是先对其进行离散化.这种先期对数据进行的处理会丢失一些信息,易于使约简产生错误.针对连续值信息系统,提出了一种新的属性约简方法ReCA,该方法将连续值属性离散化与属性约简过程融为一体,以基于信息熵的不确定性度量作为适应度函数。通过进化计算同时得到约简属性集合和离散化的断点集合.实验表明,该方法不仅可以有效地进行属性约简,而且与Rough集及C4.5两种方法相比,得到的属性数目少、测试精度较高.  相似文献   

5.
决策树C4.5算法的优化与应用   总被引:1,自引:0,他引:1  
C4.5算法作为目前最具影响力的决策树分类算法,仍存一些不足之处。针对C4.5算法在对连续值属性离散化处理过程中比较耗时的缺点,基于Fayyad和Irani的边界定理,在连续属性离散化之后使用Gini指标代替信息熵对算法进行了化简。针对决策树算法中的过度拟合问题,基于Occam’s razor,采用再带入估计,对算法进行了改进。将上述思想应用于金融借贷数据,实验结果表明,改进的C4.5算法在保证准确率的前提下,执行时间平均降低8.74%,模型复杂度平均降低6.26%,表明了该算法的有效性。  相似文献   

6.
利用覆盖算法对数据进行处理,得到论域U的一个划分,定义一种基于覆盖的条件信息熵,由新的条件信息熵定义新的属性重要性,并证明了对于一致决策表,它与代数定义下的重要性是等价的。以新的属性重要性为启发信息设计约简算法,并给出计算新的条件信息熵的算法。实验结果表明该约简算法能快速搜索到最优或次优约简。  相似文献   

7.
属性重要度和属性约简都是形式概念分析研究中的关注重点.通过信息粒的角度,文中提出基于信息熵研究形式背景的属性约简的一些方法.首先,给出形式背景的信息熵、条件熵及互信息等定义,通过条件熵对协调的决策形式背景进行属性约简,得到形式背景的粒协调和熵协调是等价的.然后,在熵不协调的决策形式背景中定义有限信息熵、有限条件熵和有限互信息,利用有限条件熵对不协调的决策形式背景进行属性约简.最后,基于属性重要度分别设计熵协调和熵不协调的决策形式背景的属性约简算法,通过数值实验验证文中算法的有效性.  相似文献   

8.
针对现有属性约简算法存在的问题,利用信息论和粗糙集理论,提出一种基于相对可辨识矩阵的决策表属性约简算法.该算法以核属性为基础,通过建立相对可辨识矩阵,利用条件信息熵作为启发式信息,减少属性约简过程中的搜索空间,逐个添加条件信息熵最大的属性,直到找出最小约简为止,并分析了该算法的时间复杂度.实例分析结果表明,该算法能有效地对决策表属性进行约简.  相似文献   

9.
基于新的条件熵的决策表约简方法   总被引:2,自引:0,他引:2  
分析了在知识约简过程中现有条件熵的不足,在一致和不一致对象分开的基础上,定义了一种新的条件熵概念,以弥补现有信息熵的不足,在此基础上给出了以不等式为条件的约简判定定理;然后以条件属性子集的条件熵来度量其对决策分类的重要性,提出了一种新的知识约简启发式方法.应用实例分析的结果表明,基于新的条件熵的属性重要性是一种更准确、更有效的启发式信息,该方法时间复杂度较低,有助于搜索最小或次优知识约简.  相似文献   

10.
不完备信息系统中的属性约简是粗集理论应用的难点。通过引入信息熵和条件信息熵,对信息系统中属性的必要性进行了定义,提出了一种基于条件信息熵的属性约简启发式算法。通过引入相对正域,有效地解决了不一致系统属性约简过程中产生的冗余属性问题,并分析了该算法的时间复杂度。最后,通过实例说明该算法能得到不完备决策表的最小相对约简。  相似文献   

11.
为了获得决策表中更好的属性约简,提出一种信息增益引导的蜂群优化算法;该算法以属性的信息熵为基础构造条件属性与决策属性间的互信息,用待选条件属性引起的信息增益作为引导蜜蜂搜索的启发信息,最终求得属性约简集;对UCI数据库多个数据集的测试结果表明,与其它基于群智能的属性约简算法相比,该算法获得最小属性约简的机率提高到90%以上,同时较对比算法的计算时间少耗费至少10%。  相似文献   

12.
李金海  贺建君 《控制与决策》2022,37(5):1299-1308
多粒度形式概念分析是数据挖掘与知识发现的重要工具,但现有的多粒度形式概念分析理论中并未提出选择最优形式背景的标准,这导致只能对多个单粒度形式背景逐一研究其知识发现问题,因此无法应对含有多个粒度属性的形式背景.鉴于此,对多粒度形式背景的粒度树上的属性块进行组合,将信息熵作为组合形式背景优劣的判别标准以评价最优粒度选择的性...  相似文献   

13.
基于粒度计算的特征选择方法   总被引:1,自引:0,他引:1  
从粒度计算的划分模型出发,重新定义了相容决策表的约简,并给出了一种新的基于粒度计算的属性约简算法.该算法以信息熵作为启发信息,通过逐渐增加属性构成条件属性集相对于决策属性的约简,再通过删除约简中的所有不必要属性,得到最小约简.该算法有效地降低了计算属性约简的时间复杂度,可以用于较大规模数据集的特征选择.在5个公开的基因表达数据集上的实验证明了该算法能找到高区分能力的特征子集.  相似文献   

14.
一种基于新的条件信息熵的高效知识约简算法   总被引:16,自引:1,他引:15  
分析了在知识约简过程中现有条件信息熵的不足,给出一种新的条件信息熵,由此定义新的属性重要性.将其与基于正区域和基于现有条件信息熵的属性重要性进行比较,结果表明新的属性重要性是一种更准确、更全面的启发信息.以新的属性重要性为启发信息设计约简算法,并给出计算新的条件信息熵的高效算法.理论分析和实验结果表明,与基于现有条件信息熵的约简算法相比,该约简算法时间复杂度较低,且在搜索最小或次优约简方面更优.  相似文献   

15.
The Mars Odyssey Gamma Ray Spectrometer has yielded planetary data of global extent. Such remote-sensing missions usually assign the value of a continuous-valued geospatial attribute to a uniform latitude-longitude grid of bins. Typical attributes include elemental-mass fraction, areal fraction of a mineral type, areal fraction of rocks, thermal inertia, etc. The fineness of the grid is chosen according to the spatial resolution of the orbiter and concomitant data processing. We describe methods to maximize the information extracted from both bin and regional data. Rigorous use of statistical parameters and related methods for inter- and intra- regional comparisons are also discussed. While we discuss results from the Mars Odyssey mission, the techniques we describe are applicable whenever continuous-valued attributes of a planet’s surface are characterized with bins and regions. Our goal is to distill the simplest statistical methods for regional comparisons that would be intuitively accessible to planetary scientists.  相似文献   

16.
皋军  王建东 《计算机应用》2004,24(2):135-137
在数据挖掘研究过程中,对连续型属性一般要进行离散化。特别是在模糊数据挖掘中,还要对离散化的区间进行模糊处理。文中依托云模式,并结合粗糙集理论提出一种新的连续型属性离散化算法。  相似文献   

17.
基于属性间交互信息的ID3算法   总被引:3,自引:0,他引:3  
启发式算法是决策树研究的核心。文中分析了最常见的一种决策树归纳启发式算法即ID3算法的不足,给出了一个改进版本,它在选择测试属性时不仅要求该属性带来的信息增益尽可能大,而且要求其与同一分支上已经使用过的各属性之间的交互信息尽可能小,从而避免了对冗余属性的选择,实现信息熵的真正减少。分析及实验结果表明,与ID3算法相比,该算法能构造出更优的决策树。  相似文献   

18.
近年来,人们越来越关注粗糙集中的属性约简算法,尤其是启发式的约简算法。为了度量属性重要度,人们把各种不同的信息熵模型应用到粗糙集中,同时在信息熵这一理论的基础上得出了许多约简算法,用来解决粗糙集中属性约简的问题。然而,现有的基于信息熵的方法还存在一系列问题。针对这些问题,本文首先将知识粒度与相对决策熵这2个概念结合在一起,从而引入一种新的信息熵模型--粒度决策熵;然后,利用粒度决策熵来度量属性的重要性,并由此得出新的约简算法--ARGDE约简算法;最后,用不同的UCI数据集来做实验,通过与已有的约简算法比较,该算法能够得到更好的实验结果。  相似文献   

19.
区间值决策信息系统是单值信息系统的一种推广,借助于属性区间值的相似程度在区间值决策系统上引入α极大相容类的概念,定义了一种新的条件信息熵,提出了相对属性内(外)重要度的度量方法,进一步,给出基于α条件信息熵的启发式相对约简算法,通过实验验证了该算法的有效性。  相似文献   

20.
基于序信息系统的知识粗糙熵,在系统中引入属性重要性的概念,利用该测度能度量序信息系统中属性集的不确定性,基于此,提出序信息系统中基于知识粗糙熵的启发式约简算法。通过实例对该方法的有效性进行检验,结果显示该算法可以作为一种有效的数据挖掘工具,为序信息系统的知识发现提供理论基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号