首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
连续属性值域划分方法是数据挖掘和机器学习领域的重要课题。但已有的大量离散化方法倾向于研究一维属性离散化问题,没有考虑多属性之间的相互关系,难于获得最佳的离散化结果。提出一种基于最小描述长度理论的多属性划分方法,通过定义多属性的模型选择问题,推导出多属性划分衡量函数;设计一种合理的算法来寻找最好的离散化结果。性能评价与分析表明,该方法在Naive贝叶斯分类器上有很好的分类学习能力。  相似文献   

2.
多变量连续属性离散化方法   总被引:1,自引:0,他引:1  
目前很多离散化方法仅考虑单个变量,不能得到最优的离散化方案。文中提出一种多属性关系的数据离散化方法。凭借概率的模型选择和最小描述长度原理,获得多变量离散化衡量标准,基于该标准提出一种有效的启发式算法来寻找最好的离散化方案。对UCI数据集进行分类预测,实验结果表明该方法提高Nave贝叶斯分类器的学习精度。  相似文献   

3.
为了有效地获取属性最小相对约简,提出了一种新的基于离散差分演化算法的粗糙集属性约简算法。利用一种新的区间编码机制将差分演化算法离散化,用于求解最小属性约简问题。提出了一种新的适应度函数计算方法来控制染色体朝着最小约简的方向进化。实验结果表明该算法是有效的,特别是当数据规模较大时收敛速度更快,更加节省计算时间,为属性约简提供了一个新的思路。  相似文献   

4.
属性频率划分和信息熵离散化的决策树算法   总被引:2,自引:0,他引:2       下载免费PDF全文
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,节点划分属性选择的度量直接影响决策树分类的效果。基于粗糙集的属性频率函数方法度量属性重要性,并用于分枝划分属性的选择和决策树的预剪枝,提出一种决策树学习算法。同时,为了能处理数值型属性,利用数据集的统计性质为启发式知识,提出了一种改进的数值型属性信息熵离散化算法。实验结果表明,新的离散化方法计算效率有明显提高,新的决策树算法与基于信息熵的决策树算法相比较,结构简单,且能有效提高分类效果。  相似文献   

5.
半监督分类算法试图根据已知样本对特定的未知样本建立一套进行识别的方法和准则。渐进直推式分类学习算法是一种基于SVM的半监督分类学习方法,在基于渐进直推式分类学习算法的基础上,利用Fisher准则中的样本离散度作为度量标准,采用Fisher准则函数作为评价函数,提出了一种基于离散度量和SVM相结合的半监督分类算法,在时间复杂度和样本测试精度上较PTSVM算法都取得了良好的学习效果。  相似文献   

6.
基于数据离散化方法,提出一种新的支持向量机集成算法,该算法采用粗糙集和布尔推理离散化方法构造有差异的基分类器.并引入一致度指标控制离散化过程,可进一步提高集成学习的分类性能.实验结果表明,该算法不仅具有明显优于单一支持向量机的分类性能.而且能取得比传统集成学习算法Bagging和Adaboost更高的分类正确率.  相似文献   

7.
处理连续属性离散化是决策树分类方法中C5.0算法在创建决策树时对数据表示空间的简化的一个重要问题,采用合理有效的连续属性离散化方法可以提高创建决策树的分类预测精度.在分析C5.0算法的离散化方法的不足之处后,提出一种改进Chi2算法的方法,能更合理更准确地对连续属性进行离散化,在此基础上创建的决策树具有更好的准确率.实验结果表明,基于改进方法的C5.0算法创建的决策树分类模型具有较高的分类准确率.  相似文献   

8.
一种连续属性离散化的新方法   总被引:6,自引:0,他引:6  
提出了一种基于聚类方法、结合粗集理论的连续属性离散化方法。在粗集理论中有一个重要概念:属性重要度(Attribute significance),它常用来作为生成好的约简所采用的启发式评价函数。受此启发,在连续属性离散化方法中可把它用于属性选择,即从已离散化的属性集中选择出属性重要度最高的属性,再把它和待离散化的连续属性一起进行聚类学习,得到该连续属性的离散区间。文中介绍了该方法的算法描述,并通过实验与其他算法进行了比较。实验结果表明,由于这种方法在离散化过程中结合了粗集理论的思想,考虑了属性间的相互影响,从而产生了比较合理的划分点,提高了规则的分类精度。  相似文献   

9.
曹峰  唐超  张婧 《计算机科学》2017,44(9):222-226
离散化是一个重要的数据预处理过程,在规则提取、知识发现、分类等研究领域都有广泛的应用。提出一种结合二元蚁群和粗糙集的连续属性离散化算法。该算法在多维连续属性候选断点集空间上构建二元蚁群网络,通过粗糙集近似分类精度建立蚁群算法适宜度评价函数,寻找全局最优离散化断点集。通过UCI数据集验证算法的有效性,实验结果表明,该算法具有较好的离散化性能。  相似文献   

10.
探索与利用的均衡是强化学习研究的重点之一。探索帮助智能体进一步了解环境来做出更优决策;而利用帮助智能体根据其自身当前对于环境的认知来做出当前最优决策。目前大多数探索算法只与值函数相关联,不考虑当前智能体对于环境的认知程度,探索效率极低。针对此问题,提出了一种基于状态空间自适应离散化的RMAX-KNN强化学习算法,算法根据当前智能体对于环境状态空间的离散化程度改写值函数形式,然后基于此值函数对环境进行合理的探索,逐步实现对于环境状态空间的自适应离散化划分。RMAXKNN算法通过将探索与环境状态空间离散化相结合,逐渐加深智能体对于环境的认知程度,进而提高探索效率,同时在理论上证明该算法是一种概率近似正确(PAC)最优探索算法。在Benchmark环境上的仿真实验结果表明,RMAX-KNN算法可以在探索环境的同时实现对于环境状态空间的自适应离散化,并学习到最优策略。  相似文献   

11.
In this paper we propose a new static, global, supervised, incremental and bottom-up discretization algorithm based on coefficient of dispersion and skewness of data range. It automates the discretization process by introducing the number of intervals and stopping criterion. The results obtained using this discretization algorithm show that the discretization scheme generated by the algorithm almost has minimum number of intervals and requires smallest discretization time. The feedforward neural network with conjugate gradient training algorithm is used to compute the accuracy of classification from the data discretized by this algorithm. The efficiency of the proposed algorithm is shown in terms of better discretization scheme and better accuracy of classification by implementing it on six different real data sets.  相似文献   

12.
田海梅  王莹 《计算机工程与应用》2012,48(36):142-145,200
连续特征量化方法是数据挖掘方法中必要的预处理过程。呈现一种组合与概率的连续特征权衡量化方法。基于最小描述长度以及组合与概率理论,提出连续特征量化的权衡标准,能够在量化所导致的分类错误与量化区间信息之间得到合理的权衡;基于该权衡标准提出一种有效的动态规划量化算法,以找到最好的量化结果;量化后的数据采用naive贝叶斯分类器进行分类预测,与其他连续特征量化方法的对比实验结果表明,新方法得到了较高的平均学习精度。  相似文献   

13.
基于样本投影分布的平衡不平衡数据集分类*   总被引:2,自引:0,他引:2  
提出一种平衡不平衡数据集统一分类方法,首先得到训练样本基于支持向量机(SVM)超平面法线方向上的投影;再借助支持向量数据描述(SVDD)对训练样本投影分布进行描述;测试样本在此基础上实现分类。平衡或不平衡数据集都可采用相同的方法进行分类。实验表明该方法能够同时对平衡或不平衡数据集进行有效的分类。  相似文献   

14.
为提高分类精度,提出一种基于最大期望(EM)与遗传(GA)算法的多尺度SAR图像无监督分类方法.利用多尺度自回归(MAR)模型描述SAR图像中不同尺度之间的统计相依性,提取多尺度特征.应用混合模型描述多尺度特征,并将GA算法与EM算法相结合给出混合模型的参数估计算法,利用最小描述长度(MDL)准则选择模型的分量教.最后使用Bayes分类器实现了图像的分类与分割.该方法集EM算法和GA算法结合后的优点,对设定初值有较少的敏感性,因而避免了局部最优解.应用于SAP图像的实验表明,在分割精度上GA-EM方法优于MAR模型的算法.  相似文献   

15.
16.
Data discretization unification   总被引:2,自引:1,他引:1  
  相似文献   

17.
针对sIB算法的压缩变量参数的确定问题,采用最小描述长度原理,构建一种自动确定参数的AsIB算法.算法使用一种有效的编码方案对数据分析模型和相应的数据进行描述,将最小描述长度的模型作为选择标准,从而有效发现了数据蕴含的特征模式数目.实验表明:AsIB算法所采用的编码方案有效,在不设定模式数目的情况下,能够正确发现数据集所蕴含的模式.该算法解决了现sIB算法对先验知识的依赖问题,将能拓展其在多维数据的自动降维分析和模式提取等方面的应用.  相似文献   

18.
19.
基于核空间相对密度的SVDD多类分类算法*   总被引:3,自引:0,他引:3  
针对现有基于支持向量数据描述(SVDD)的多类分类算法未能充分利用重叠区域样本分布信息等问题,提出了一种基于核空间相对密度的SVDD多类分类算法DM-SVDD。该算法首先由SVDD确定包围每类数据的最小超球,然后计算位于最小超球重叠区域中每个样本在其同类样本间的相对密度,最后以各类样本相对密度的均值为标准,对重叠区域内的待测样本进行分类。实验结果表明,算法DM-SVDD是可行有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号