首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,节点划分属性选择的标准直接影响决策树分类的效果。基于粗糙集的属性频率函数等方法度量属性重要性的概念,将其用于分枝划分属性的选择,提出一种决策树学习算法。该方法仅利用区分矩阵就可以计算出属性的出现频率函数值,计算简单。实验结果表明,用该方法构造的决策树与传统的基于信息熵方法构造的决策树相比较,结构简单,且能有效提高分类效果。  相似文献   

2.
针对在C4.5决策树构造过程中,测试属性选择未考虑属性之间影响的缺点,提出了一种改进的C4.5决策算法.该算法使用一个属性与其他属性的平均信息熵表示这个属性与其他属性的冗余度,然后在选择测试属性的过程中,加入测试属性与其他属性的冗余度,通过信息增益、分裂熵和冗余度三个因素的评价,选择信息增益率高而与其他属性冗余度低的测试属性.实验结果表明,在选定的实验数据集上,改进后的C4.5决策树算法平均分类正确率提高.  相似文献   

3.
粗糙集理论中一种属性离散化算法   总被引:6,自引:0,他引:6  
针对定量属性离散化制约粗糙集理论应用这一关键问题,利用分级聚类法和粗糙集理论中依赖度的概念,提出了一种对决策系统中条件属性进行离散化的增类减类算法,实现了决策系统的属性约简。该算法易于理解,计算简单,以实例说明了算法的合理性和有效性。  相似文献   

4.
针对ID3算法用信息增益作为在各级非叶节点上选择属性的标准的局限性,结合统计学独立检验思想,给出一种新的属性依赖性和重要性定义,以新的属性重要性为启发式信息设计决策树规则提取算法。实例分析的结果表明,该算法能提取更为简洁有效的决策规则。  相似文献   

5.
在构造决策树的过程中,分离属性选择的标准直接影响分类的效果.基于变精度粗糙集的理论将属性重要度作为选择分离属性的标准.经实验证明,使用该方法构造的决策树与经典ID3决策树算法相比,具有复杂性低,能有效提高分类效果的优点.  相似文献   

6.
基于信息论的连续属性离散化   总被引:2,自引:0,他引:2  
使用信息论的方法进行连续属性的离散化.引入Hellinger差HD(Hellinger Divergence)作为每个区间对决策的信息量度量,从而定义切分点的信息熵,最终的离散化结果是使各区间的信息量尽可能平均.分析了HD度量在两种离散化方法中的作用,说明它在划分算法中运用比较理想,而在归并算法中则有局限.  相似文献   

7.
针对传统的基于信息熵的决策树算法所存在的问题,本研究从粗糙集理论的角度来考虑信息熵,定义了依赖决策熵的概念,并提出一种基于依赖决策熵的决策树算法DTDDE。在DTDDE算法中,采用依赖决策熵的概念来度量每个条件属性的重要性,并选择重要性最大的属性作为当前的分离属性。通过在多个UCI数据集上的实验表明:与现有的决策树算法相比,本研究所提出的算法能够获得更好的分类性能。  相似文献   

8.
基于构建有序决策树,提出了一种新的归纳算法。该算法选择的扩展属性不仅和类的有序互信息值最大,而且要求和同一分支上已被用过的条件属性的有序互信息值最小。实验结果表明,考虑了条件属性之间的相关性后,可避免同一条件属性的重复选择,真正体现了条件属性和决策属性之间的有序互信息,与已有的算法相比,提高了测试精度。  相似文献   

9.
在粗糙集理论的基础上提出了一种新的决策树算法,把粗糙集中的近似分类精度及决策规则的确定性因子应用于决策树的构造,在算法形成的过程中提出抑制因子,对决策树进行修剪,避免了先生成决策树再修剪的繁琐步骤,且在每次划分时对条件属性值和决策属性值进行匹配考察,避免不必要的计算,进一步提高了算法速度.  相似文献   

10.
粗糙集理论中基于属性重要性的离散化方法   总被引:4,自引:0,他引:4  
连续属性离散化一直是机器学习领域中亟待解决的关键问题之一。目前已有许多离散化方法,存在的主要问题是断点集的选取带有很大的主观性,导致大多数的离散化算法难以得到较满意的离散效果。分析了当前研究中常用的离散化方法,提出了一种基于属性重要性的离散化方法,利用遗传算法,把最小断点集作为优化目标,利用遗传算法,以属性重要性构造适应度函数,保证了原决策系统的不可分辨关系,避免了决策表信息的损失,所得结果相对来说比较客观。  相似文献   

11.
为了向市场人员提供决策依据,有效降低客户流失率,基于数据挖掘平台Clementine,构造出一种客户流失模型,并分别利用决策树算法C5.0及分类和回归算法对某运营商提供的实际数据进行实验分析。对比实验结果可知,C5.0算法在准确率及覆盖率等方面更适合于该运营商。  相似文献   

12.
属性重心决策模型可以把自己的心理重心点或标准点通过重心坐标方法加入到考生分数所构成的属性坐标系中去,从而在招生者的心理标准点与考生之间,建立了一种能表征招生者心理满意度的逻辑评判标准,为高考招生提供了一个能刻划决策者偏好的决策方法。  相似文献   

13.
针对协同过滤方法中用户-项目评分矩阵的极端稀疏性问题,提出了一种基于层次的混合推荐方法.首先利用TF-IDF提取项目属性特征,并利用余弦相似度对评分矩阵的缺失值进行填充;然后通过对填充的矩阵做SVD,寻找隐性特征,建立隐语义模型;最后将本文的算法分别与众数填充和无填充模型进行对比实验,结果表明本文提出的方法有效提高了推荐的精度.  相似文献   

14.
在分布式多节点应用场景中, 针对需要产生大量混沌序列来构造测量矩阵造成资源和通信带宽浪费的缺点,提出了一种基于切比雪夫扩频序列的分布式循环测量矩阵构造算法。利用符号函数把由切比雪夫混沌函数产生的序列进行二值化得到扩频序列,选择一定长度的序列作为一行循环生成测量矩阵,并证明了由循环生成的序列满足贝努利分布。选取一维信号和二维图像进行仿真实验,结果表明相比于切比雪夫贝努利矩阵、贝努利矩阵、高斯矩阵和罗切斯特混沌矩阵,在相同的压缩比下,新矩阵在一维信号上的恢复效果与其他矩阵相同,在二维红外图像和自然图像中,相比于其他矩阵具有更好的恢复效果。  相似文献   

15.
利用二进制树通过后缀法编码将N个物种的系统发生树与后缀法编码进行一一对应,并在遗传算子的设计中引入退火算子,通过遗传算法与退火算法相组合寻找全局最优解.计算结果表明,改进算法在简化树存贮的同时,还提高了运行速度.  相似文献   

16.
针对基分类器算法偏向选择多值属性以及大量对数运算引起运算复杂的问题,提出一种基于属性相容性的随机森林算法。引入粗糙集中的属性相容性,计算各个条件属性的相容度,利用宽相容度辅助严相容度构建分割属性的划分规则,重建基分类器的信息增益或信息增益率表达式。实验结果表明,改进算法在保持对数据量较多时有较高分类准确率前提下,对数据量较少时的分类准确率有显著提升,且降低了运算复杂度。  相似文献   

17.
基于极端梯度提升树算法的图像属性标注   总被引:1,自引:0,他引:1  
提出基于极端梯度提升树(eXtreme gradient boosting,XGBoost)算法的图像属性标注模型,以改善标注性能:提取图像局部二值模式(local binary patterns,LBP)、灰度纹理空间包络特征(Gist)、尺度不变特征变换(scale invariant feature transform,SIFT)、视觉几何组(visual geometry group,VGG)等特征,以准确刻画图像视觉内容;基于图像特征,采用XGBoost算法集成弱分类器为强分类器,完成图像属性标注;深入挖掘图像属性蕴含的深层语义,构建全新的、层次化的属性表示体系,以贴近人类客观认知;设计迁移学习策略并合理组合分类模型,进一步改善标注性能。试验表明:Gist特征能真实刻画图像视觉内容;执行基础迁移学习后,标注精准度比迁移学习前最优指标提升8.69%;执行混合型迁移学习后,合理组合分类模型,标注精准度比基础迁移学习的最优指标提升17.55%。模型有效地改善图像属性标注精度。  相似文献   

18.
Pawlak提出的基于属性重要度的约简算法是常用的算法之一,它通过计算等价关系对论域划分的粒度来度量属性的重要度。但用该算法计算每一个属性的重要度时,都要计算不同等价关系对整个论域的划分,计算复杂度非常高。受决策树划分子集思想的启发,对基于属性重要度的属性约简算法进行了改进,提出了一种基于划分子集的属性约简算法。在核属性集形成划分的基础上,通过在核属性中添加非核属性从而形成更细的划分,如此反复。在保持正域不变的框架下,形成最细化分的属性集就是一个约简。理论分析显示该算法减少了求属性约简的计算时间复杂度,提高了求属性约简的效率。  相似文献   

19.
针对大容量数据表构造的区分矩阵过于庞大致使属性约简算法效率低的问题,引入置信度和支持度,提取大型数据库中的高概率事件,重新构造决策数据表,并在构造区分矩阵过程中剔除重复项和包含项,结果使得比较次数减少、存储空间节省、约简效率提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号