首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
实际问题中经常涉及连续的数值属性,然而许多归纳学习算法却是针对离散属性空间的.因此,对数据进行预处理的离散化算法一直受到人们的重视.兼顾所有属性间关系的整体离散化是一个重要方法,该文提出基于数据分区的整体离散化算法,它首先对例子集合在各个连续属性上的取值进行统一的放大处理,选出包含最多聚类信息的属性,将整个例子集合粗略的划分为多个分区;然后在各个分区中分别进行聚类、合并.该方法改进了基本的整体离散化算法,并利用农业专家系统中的土壤分类数据对算法进行了验证.  相似文献   

2.
针对基分类器算法偏向选择多值属性以及大量对数运算引起运算复杂的问题,提出一种基于属性相容性的随机森林算法。引入粗糙集中的属性相容性,计算各个条件属性的相容度,利用宽相容度辅助严相容度构建分割属性的划分规则,重建基分类器的信息增益或信息增益率表达式。实验结果表明,改进算法在保持对数据量较多时有较高分类准确率前提下,对数据量较少时的分类准确率有显著提升,且降低了运算复杂度。  相似文献   

3.
ID3决策树算法是构造决策树的重要算法之一,然而实验表明该算法在选择分裂属性时存在着多值偏向问题。以往的大多数学者都是基于实验分析多值偏向问题。该文针对这个问题,基于粗糙集理论及凹函数性质,引入函数重要度概念,从理论上分析多值偏向问题,并分析了属性多值对属性的重要度的影响。最后实验验证该理论分析方法的正确性与可行性。  相似文献   

4.
提出了一种利用离散度准则计算人脸局部特征权值的方法.在利用局部特征进行人脸识别的算法中,可以依据各个局部特征对人脸识别贡献的大小,对每一个局部特征分配不同的权值,以此来提高识别效果.从模式识别的角度来看,易于分类的局部特征对人脸识别有较大的贡献,反之亦然.在特征空间中,当类内模式较密集,不同类模式相距较远时,模式特征易于分类.离散度矩阵的迹描述了模式特征的分散程度,通过运用统计学习的方法,以类内离散度矩阵之逆和类间离散度矩阵的乘积的迹作为衡量局部特征分类性能的依据,根据局部特征的分类性能来确定其权值.试验结果表明该算法可行,采用离散度准则计算的局部特征权值能够明显提高人脸识别率.与同类算法相比,该方法具有计算简便、易于实现等优点.  相似文献   

5.
基于差分隐私下包外估计的随机森林算法   总被引:1,自引:0,他引:1  
针对差分隐私随机森林算法在对高维数据进行分类时准确率不理想的问题,本文通过引入差分隐私下的包外估计来计算决策树权重以及特征权重,从而提出一种基于差分隐私下包外估计的随机森林算法(random forest under differential privacy based on the out-of-bag estimate, RFDP_OOB).本算法首先在差分隐私保护下生成一部分的随机森林,利用差分隐私下包外估计的特性对决策树和特征的重要性进行评估,从而计算出决策树权重以及特征权重,然后通过特征权重对特征进行划分,得到非重要特征集.接着在生成剩下的一部分随机森林的过程中,对最佳特征为非重要特征的结点进行预剪枝操作,使其成为叶子结点,从而减小噪声、提高决策树分类准确率,并具有较好的执行效率.最后在预测分类结果时,取所对应的决策树权重最大的分类结果作为随机森林算法的分类结果,从而提高随机森林算法的分类准确率.本文还对算法的有效性和隐私性进行了理论分析,并通过实验结果验证了本算法的有效性,本算法可以在保护数据隐私性的同时提高算法的分类准确率.  相似文献   

6.
针对以信息增益为划分标准的ID3算法中存在偏向属性取值多的属性等问题,提出了一种融合GINI指数的ID3改进算法。计算每个属性的信息增益和对应的GINI指数值,并计算所有属性的GINI指数算术平均值,筛选GINI指数低于算术平均值的属性记为候选属性集;从候选属性集中选择信息增益最大的属性建立分支,用递归方法构建决策树。实验使用6组UCI数据集进行验证。结果表明:该决策树的准确率均有所提高,对多值偏向问题有很好的克服作用。  相似文献   

7.
特征抽取是文本分类的重要研究领域,针对原始特征空间的高维性与稀疏性给分类算法带来"维数灾难"问题,探讨了基于词条聚合的特征抽取方法,设计了一种利用词条聚合进行特征抽取的文本分类的方案.该方案利用改进的树型动态自组织映射(TGSOM)进行词条聚合,并根据聚合特征的特点,考虑所包含的词条的文档频率的不同和区分文档类别属性的能力的不同,提出了一种新权重计算方法,最后利用SPRINT决策树算法进行分类,实验表明该方法比普通方法分类精度提高4.32%.  相似文献   

8.
当前,远程教学系统缺少智能性,不能提供个性化教学,引入ID3算法后可以根据学习者的特征对其分类,从而实现对不同学习者的针对性教学.然而传统的决策树ID3算法存在多值倾向的问题,选择分裂属性不符合客观事实.运用一种基于灰色关联分析的修正因子属性选择方法予以改进,对取值较多但灰色关联度低的属性,在计算其信息增益时通过灰色关联度的正弦值作为修正因子,克服传统ID3算法的不足.将改进的ID3算法引入到远程教学系统中,可以更好地对学习者进行分类以实现智能化导学.  相似文献   

9.
提出了一种改进的SLIQ决策树分类算法,克服了原有SLIQ算法需要大量计算决策树每个节点的吉尼指数(gini index)的缺点.改进的SLIQ算法能够有效地减少计算的复杂度.结合实例,将该算法与原有SLIQ算法和基于人工神经网络的分类算法应用结果进行比较,实验结果表明该算法的分类准确率远远高于SLIQ算法和基于人工神经网络的分类算法.  相似文献   

10.
为解决基于卡方统计量离散化方法在处理未知数据特性时的参数难确定问题,提出了一种基于粗糙集方法的自动离散化方法.该方法根据粗糙集理论对知识不确定性和属性重要性的分析,利用粗糙集方法处理数据不需要先验知识的特点,以基于最小描述长度原理的决策系统信息熵作为离散化过程的评价函数,并由属性断点平均重要性确定多连续属性的离散化顺序,构建了自动的离散化方法RSE Chi2.实例测试表明,该方法性能良好,能根据样本数据本身的特性,自动协调拟合和预报精度,不需要先验设定显著性水平和不一致率等参数,离散化结果更为精简,所建决策树分类模型具有较好的预报性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号