首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
连续属性离散化算法SHD及其改进   总被引:2,自引:0,他引:2  
为了让规则抽取算法能更好地适用于连续属性领域的问题,文章提出了一种有导师的连续属性离散化算法SHD,并将该算法扩展到多连续属性处理领域。在此基础上,文章对该算法的数据预处理过程进行了探讨,提出了一种基于类间离散度矩阵分析属性空间重构造算法,并将其应用到属性预处理过程中。算法测试证明,对于连续属性领域的问题,使用SHD属性离散化算法将明显改进后继规则抽取算法的效果。  相似文献   

2.
连续属性离散化是机器学习和数据挖掘领域中的一个重要问题,离散化是否合理决定着表达和提取相关信息的准确性。经过研究Chi2系列算法,提出一种新的基于属性重要性的连续属性离散化方法——Imp-Chi2算法,该算法依据属性重要性程度对属性离散化的顺序进行了合理的调整,能够更准确地对连续属性进行离散化。文章通过C4.5和支持向量机分别对离散化后的结果进行了实验,在实验过程中,提出一种训练集类比例抽取方法,避免了训练集随机抽取的不均匀性。实验结果证明了所提算法的有效性。  相似文献   

3.
曹峰  唐超  张婧 《计算机科学》2017,44(9):222-226
离散化是一个重要的数据预处理过程,在规则提取、知识发现、分类等研究领域都有广泛的应用。提出一种结合二元蚁群和粗糙集的连续属性离散化算法。该算法在多维连续属性候选断点集空间上构建二元蚁群网络,通过粗糙集近似分类精度建立蚁群算法适宜度评价函数,寻找全局最优离散化断点集。通过UCI数据集验证算法的有效性,实验结果表明,该算法具有较好的离散化性能。  相似文献   

4.
针对机器学习领域的一些分类算法不能处理连续属性的问题,提出一种基于词出现和信息增益相结合的多区间连续属性离散化方法.该算法定义了一个离散化过程,离散化了采用传统信息检索的加权技术生成的非二值特征词空间,然后判断原特征空间中每个特征词属于或不属于某给定子区间,将问题转换成二值表示方式,以使得这些分类算法适用于连续属性值.实验结果表明,该算法离散过程简单高效,预测精度高,可理解性强.  相似文献   

5.
连续属性的离散化是文本分类任务中数据预处理阶段的一项重要技术。针对机器学习领域中的诸多优秀算法只能处理离散属性的特点,提出一种基于词出现和信息增益相结合的多区间连续属性离散化方法(multi-interval discretization based on term presence and information gain,MTPIG)。并将MTPIG算法应用到了分类算法AdaBoost.MH中,给出实验结果及分析。实验结果表明,使用MTPIG算法处理文本分类中的数据,其过程简单高效,预测精度高,可理解  相似文献   

6.
一种改进的快速数据离散化算法   总被引:1,自引:0,他引:1  
提出一种新的基于粗糙集理论的快速数据离散化算法FRSBD(Fast Rough Set based Discretization Algorithm),文章定义了属性决策关系矩阵等概念.证明了一组基于属性决策关系矩阵的断点判定规则的有效性,并基于该新的断点判定规则,实现了决策表中连续属性值的快速离散化.理论分析说明了FRSBD的正确性和有效性,仿真结果表明该算法优于文献报道的同类算法.  相似文献   

7.
连续属性离散化是Rough集理论应用中面临的主要问题之一.提出了一种基于的Rough集连续属性离散化方法.首先提出主泛化决策等概念,在数据过滤方法的基础上,利用等价类的合并对属性离散化.实验表明,利用该方法对数据进行离散预处理后提取的规则具有较好的分类预测准确性.  相似文献   

8.
提出一种基于改进粒子群的连续属性离散化算法。该算法结合集群智能优化理论和粗糙集理论,将各属性离散化分割点初始化为粒子群体,通过粒子间的相互作用寻求最优离散化分割点。将提出的离散化算法应用于UCI数据集实验中,实验结果表明,该算法能使决策系统的信息损失降低到最小,并可获取更为简洁的决策规则。  相似文献   

9.
连续属性空间上的规则学习算法   总被引:3,自引:0,他引:3  
权光日  刘文远  叶风  陈晓鹏 《软件学报》1999,10(11):1225-1232
文章研究连续属性空间上的规则学习算法。首先简述了研究连续属性空间上的规则学习算法的目的和意义,并将规则学习理论中的一些基本概念推广到连续属性空间。在此基础上,研究了连续属性空间离散化问题,证明了属性空间最小离散化问题是NP困难问题,并将信息熵函数与无穷范数的概念应用到连续属性离散化问题,提出了基于信息熵的属性空间极小化算法。最后,提出了连续属性空间上的规则学习算法,并给出了数值实验结果。  相似文献   

10.
随着大数据时代的到来,数据信息呈几何倍数增长。传统的分类算法将面临着极大的挑战。为了提高分类算法的效率,提出了一种基于弱相关化特征子空间选择的离散化随机森林并行分类算法。该算法在数据预处理阶段对数据集中的连续属性进行离散化。在随机森林抽取特征子空间阶段,利用属性向量空间模型计算属性间的相关性,构造弱相关化特征子空间,使所构建的决策树之间相关性降低,从而提高随机森林的分类效果;并通过研究随机森林的并行化策略,结合MapReduce框架,改进并实现了随机森林模型构建过程的双重并行化,进一步改善了算法的计算效率。  相似文献   

11.
随着知识发现和数据挖掘的迅速发展,出现了很多的数据挖掘方法,这些方法很多都依赖于离散的数据,连续属性的离散化是数据分析预处理中的一项重要内容,在数据挖掘、机器学习等领域中具有重要作用。然而,在现实世界数据库中,存在着大量的连续值属性。因此,常常需要对连续值属性进行离散化本文利用LVQ神经网络能够找到连续属性断点的功能,提出了一种基于LVQ神经网络的离散化方法,从而实现了对连续属性的离散化。算法分析和实验证明,本算法是切实可行的。  相似文献   

12.
带混合属性的神经网络规则提取方法   总被引:1,自引:0,他引:1  
人工神经网络应用中最大的弊端是缺乏可理解性,而对结果的解释是任何一个完善的智能系统必备的基本特征.从神经网络中提取规则被公认为是解决该问题最有效的手段之一.因此,所提取规则的可理解程度成为衡量规则提取算法质量的重要指标.目前该领域的研究主要集中在分类规则的提取上.对于分类问题,待测模式的属性的取值可能是离散的,也可能是连续的.现有的算法针对全连续或者全离散的问题已取得较好的效果.但对既包含连续属性也包含离散属性的问题,已有算法未取得理想的结果.本文针对带混合属性的分类问题,提出了一种规则提取算法,在提取规则的可理解性上同时照顾了连续属性和离散属性.  相似文献   

13.
李晓飞 《计算机应用与软件》2009,26(10):262-264,272
连续属性离散化问题是机器学习的重要方面,是数据预处理问题之一.提供的基于动态层次聚类的离散化算法是层次聚类算法的一种改进.对该算法进行定性分析-对随机采集数据根据相似度进行聚类分析,得到论域的一种划分.通过实验表明,基于动态层次聚类的离散化算法对连续属性的划分更加合理,更加有效.  相似文献   

14.
针对粗糙集对于连续域属性决策表的处理能力差以及不容易获得模糊集之间关系等问题,提出一种将模糊集和粗糙集结合起来的连续型条件属性模糊规则约简算法。该算法首先引入三角隶属度函数将连续属性值转换为模糊值,并使用离散模糊神经网络方法获得数据集之间关系。实例验证表明,采用该算法,用户可以根据实际决策需要和领域知识更改阈值,从而获得满意的模糊规则结果。  相似文献   

15.
数据预处理是提高挖掘过程精度和性能的关键。文章在分析决策树算法和滑坡数据属性值特点基础上,利用聚类将连续属性值划分区间,提出了一种针对滑坡数据连续属性值离散化的方法,通过实验,新方法构造的决策树比原算法的分类正确率高,规则冗余少。  相似文献   

16.
一种连续属性离散化的新方法   总被引:6,自引:0,他引:6  
提出了一种基于聚类方法、结合粗集理论的连续属性离散化方法。在粗集理论中有一个重要概念:属性重要度(Attribute significance),它常用来作为生成好的约简所采用的启发式评价函数。受此启发,在连续属性离散化方法中可把它用于属性选择,即从已离散化的属性集中选择出属性重要度最高的属性,再把它和待离散化的连续属性一起进行聚类学习,得到该连续属性的离散区间。文中介绍了该方法的算法描述,并通过实验与其他算法进行了比较。实验结果表明,由于这种方法在离散化过程中结合了粗集理论的思想,考虑了属性间的相互影响,从而产生了比较合理的划分点,提高了规则的分类精度。  相似文献   

17.
基于人工鱼群算法的离散化方法   总被引:2,自引:0,他引:2  
针对连续属性离散化过程中由于区间分割不当所造成的病态问题,提出一种最优离散化方法.将离散化中的分割点划分问题转化为一个指标寻优问题,采用人工鱼群算法进行优化求解.通过引入虚拟分割点,利用鱼群算法的聚群行为对离散区间实现有效合并.实例分析结果表明,用人工鱼群算法寻优得到的离散区间数目较少,最后得到的决策规则更为精简并具有较强的数据抗干扰能力.  相似文献   

18.
连续属性离散化是数据分析中重要的预处理过程,而基于粗糙集理论的数据分析要求离散化的结果能够最大程度地保持原信息系统的分辨关系。论文提出了一种新的离散化算法,此算法以决策信息系统中决策属性对条件属性集合的依赖度作为评价函数动态调整DBSCAN聚类算法的参数,直至离散化决策属性对条件属性集合的依赖度达到预先指定的阈值为止。算法分析和实验证明,算法是切实可行的。  相似文献   

19.
谢娟英  刘芳  冯德民 《计算机科学》2006,33(11):149-150
本文提出了在没有任何领域知识可供借鉴的情况下,利用遗传算法对信息系统的数量型属性进行离散化,利用RST进行分类规则挖掘,将GA与RST相结合进行分类规则挖掘的新算法。该算法不仅有效地解决了利用粗糙集理论进行分类规则挖掘时,数量型属性的离散化问题,而且可挖掘出通用的分类规则。  相似文献   

20.
基于小生境离散粒子群优化的连续属性离散化算法   总被引:1,自引:0,他引:1  
分析了基于粗糙集理论的连续属性离散化的实质,在此基础上提出了一种基于小生境离散粒子群优化的启发式全局离散化算法。该算法结合粗糙集理论,将决策属性支持度作为决策表整体分类能力的度量,然后利用离散粒子群优化算法,以最小断点集和最大决策属性支持度为优化目标,在保持决策表分类能力不变的情况下,通过粒子的迭代寻求最优值;同时为了避免粒子在迭代过程中的早熟收敛问题,引入小生境共享机制,加强了离散粒子群算法的全局搜索能力。通过实验将本文算法与其他算法进行了比较,结果表明采用本文算法得到了较少的断点数,提高了规则的分类正确率,验证了该算法的有效性和稳定性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号