首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 404 毫秒
1.
随着知识发现和数据挖掘的迅速发展,出现了很多的数据挖掘方法,这些方法很多都依赖于离散的数据,连续属性的离散化是数据分析预处理中的一项重要内容,在数据挖掘、机器学习等领域中具有重要作用。然而,在现实世界数据库中,存在着大量的连续值属性。因此,常常需要对连续值属性进行离散化本文利用LVQ神经网络能够找到连续属性断点的功能,提出了一种基于LVQ神经网络的离散化方法,从而实现了对连续属性的离散化。算法分析和实验证明,本算法是切实可行的。  相似文献   

2.
徐盈盈  钟才明 《计算机应用》2014,34(8):2184-2187
模式识别与机器学习的一些算法只能处理离散属性值,而在现实生活中的很多数据具有连续的属性值,针对数据离散化的问题提出了一种无监督的方法。首先,使用K-means方法将数据集进行划分得到类别信息;然后,应用有监督的离散化方法对划分后的数据离散化,重复上述过程以得到多个离散化的结果,再将这些结果进行集成;最后,将集成得到的最小子区间进行合并,这里根据数据间的邻居关系选择优先合并的维度及相邻区间。其中,通过数据间的近邻关系自动寻求子区间数目,尽可能保持其内在结构关系不变。将离散后的数据应用于聚类算法,如谱聚类算法,并对聚类后的效果进行评价。实验结果表明,该算法聚类精确度比其他4种方法平均提高约33%,表明了该算法的可行性和有效性。通过该算法得到的离散化数据可应用于一些数据挖掘算法,如ID3决策树算法。  相似文献   

3.
南书坡 《福建电脑》2013,29(7):110-111
实际的数据挖掘过程中,经常遇到的一个难题就是数据库中的某些属性上的属性值是连续的,如果不对这些数据进行处理,那么给规则的提取带来了很大的困难。本文利用SOFM网络能够找到连续属性断点的功能,提出了一种基于SOFM网络的离散化方法,从而实现了对连续属性的离散化。算法分析和实验证明,本算法是切实可行的。  相似文献   

4.
连续属性离散化在机器学习和数据挖掘领域中有着重要的作用。连续属性离散化方法是否合理决定着对信息的表达和提取的准确性。Chi2算法在对连续属性进行离散化处理时,无冲突的数据能够得到较好的结果,但是,对不协调和不完全的数据实验结果不是很理想。利用了Bayseian模型允许一定程度错误分类存在的性质,对Chi2算法进行了改进。改进后的Chi2算法不仅更适合不协调和不完全的数据,还使得区间的合并更加合理。实验结果证明了算法的有效性。  相似文献   

5.
连续属性离散化的MaxDiff方法   总被引:2,自引:0,他引:2       下载免费PDF全文
粗糙集理论用于数据挖掘要求连续数据离散化,在分析目前的离散化算法的基础上,提出了一种局部离散化方法,以期降低断点、规则数量。使用此算法在模拟电路故障数据上进行的试验,表明其性能较好。  相似文献   

6.
根据医学图像数据的特性,提出一种基于粗糙集和决策树相结合的数据挖掘新方法。该方法利用粗糙集中基于属性重要性的离散化方法对医学图像特征进行离散化,采用粗糙集对其属性进行约简,得到低维训练数据,再用SLIQ决策树算法产生决策规则。实验表明:将粗糙理论与SLIQ相结合的数据挖掘方法既保留了原始数据的内部特点,同时剔除了与分类无关或关系不大的冗余特征,从而提高了分类的准确率和效率。  相似文献   

7.
连续属性的离散化是机器学习和数据挖掘的重要预处理步骤,如何高效处理海量数据连续属性离散化已成为急需要解决的问题。近年来兴起的Hadoop技术能够有效处理基于海量数据的应用。为此,设计和实现一种基于MapReduce编程模型的连续属性离散化并行算法,并给出算法设计的方法和策略。在保证离散效果的情况下,使用不同大小数据集在不同节点的集群环境下的实验结果表明,所设计的并行离散化算法具有较高的执行效率和较好的可扩展性,适合用于海量数据的快速离散化处理。  相似文献   

8.
随着数据挖掘和知识发现等技术的迅速发展,出现了很多数据离散的算法,但是,已有的离散化方法大多是针对固定点上的连续属性值的情况,实际应用中大量存在着连续区间属性值的情况。针对这一问题,提出了一种连续区间属性值离散化的新方法。通过区间数的相似度来描述对象间的相似关系,定义相似度阈度确定离散关系,来实现对区间数据的离散化,经过分析相似度在算法中的作用,提出了一种新的变量——关联度,改进了算法。采用多组数据对此算法的性能进行了检验,与其他算法做了对比试验,试验结果表明此算法是有效的。  相似文献   

9.
解亚萍 《计算机应用》2011,31(5):1409-1412
很多数据挖掘方法只能处理离散值的属性,因此,连续属性必须进行离散化。提出一种统计相关系数的数据离散化方法,基于统计相关理论有效地捕获了类-属性间的相互依赖,选取最佳断点。此外,将变精度粗糙集(VPRS)模型纳入离散化中,有效地控制数据的信息丢失。将所提方法在乳腺癌症诊断以及其他领域数据上进行了应用,实验结果表明,该方法显著地提高了See5决策树的分类学习精度。  相似文献   

10.
一种基于信息论的决策表连续属性离散化算法   总被引:2,自引:0,他引:2  
连续属性离散化方法对后续阶段的机器学习和数据挖掘过程有着重要的意义。提出一种新的针对决策表的离散化算法,在该算法中,首先将信息熵用作判断标准,从候选断点集中选择合适的断点,然后删除一些冗余的断点来优化离散结果,在删除过程中为了尽可能保证决策表分类能力不变,使用不一致率对该过程进行控制。最后选取多组实验数据,使用当前流行的分类算法——支持向量机(SVM)对离散化后的数据进行分类预测,并与其它离散算法进行对比,结果表明本算法是有效的。  相似文献   

11.
We present a data mining method which integrates discretization, generalization and rough set feature selection. Our method reduces the data horizontally and vertically. In the first phase, discretization and generalization are integrated. Numeric attributes are discretized into a few intervals. The primitive values of symbolic attributes are replaced by high level concepts and some obvious superfluous or irrelevant symbolic attributes are also eliminated. The horizontal reduction is done by merging identical tuples after substituting an attribute value by its higher level value in a pre- defined concept hierarchy for symbolic attributes, or the discretization of continuous (or numeric) attributes. This phase greatly decreases the number of tuples we consider further in the database(s). In the second phase, a novel context- sensitive feature merit measure is used to rank features, a subset of relevant attributes is chosen, based on rough set theory and the merit values of the features. A reduced table is obtained by removing those attributes which are not in the relevant attributes subset and the data set is further reduced vertically without changing the interdependence relationships between the classes and the attributes. Finally, the tuples in the reduced relation are transformed into different knowledge rules based on different knowledge discovery algorithms. Based on these principles, a prototype knowledge discovery system DBROUGH-II has been constructed by integrating discretization, generalization, rough set feature selection and a variety of data mining algorithms. Tests on a telecommunication customer data warehouse demonstrates that different kinds of knowledge rules, such as characteristic rules, discriminant rules, maximal generalized classification rules, and data evolution regularities, can be discovered efficiently and effectively.  相似文献   

12.
叶片气动优化设计过程中产生的海量过程仿真数据中隐含着丰富的领域设计知识,为了获取其中隐含的设计知识,将基于粗糙集的决策树数据挖掘方法应用到叶片气动过程仿真数据的知识挖掘中。以跨音速压气机转子叶片NASA Rotor37气动优化设计为例,利用K-Means聚类分析对仿真数据进行离散化处理,采用粗糙集属性重要性算法进行属性约简,采用决策树算法构建叶片优化设计知识决策树,挖掘出叶片优化设计变量弯扭、周向积迭线的控制点偏移量与目标函数总压损失系数之间隐含的设计规则。结果表明,基于粗糙集的决策树的数据挖掘技术为叶片气动优化设计领域知识获取提供了一条有效的新途径。  相似文献   

13.
皋军  王建东 《计算机应用》2004,24(2):135-137
在数据挖掘研究过程中,对连续型属性一般要进行离散化。特别是在模糊数据挖掘中,还要对离散化的区间进行模糊处理。文中依托云模式,并结合粗糙集理论提出一种新的连续型属性离散化算法。  相似文献   

14.
刘洋  张卓  周清雷 《计算机科学》2014,41(12):164-167
医疗健康数据通常属性较多,且存在连续型、离散型并存的混合数据,这在很大程度上限制了知识发现方法对医疗健康数据的挖掘效率。以模糊粗糙集理论为基础,研究混合数据上的分类规则挖掘方法,通过引入规则获取算法的泛化阈值,来控制获取规则集的大小和复杂程度,提高粗糙集知识发现方法在医疗健康数据上的分类效率。最后通过对比实验验证了该算法在医疗决策表上挖掘规则的有效性。  相似文献   

15.
基于差异关系的变精度粗糙集知识约简算法研究   总被引:1,自引:0,他引:1  
焦娜 《计算机科学》2015,42(5):265-269
有效的知识约简算法是粗糙集理论的重要研究内容.粗糙集是一个去掉冗余特征的有效工具.经典的粗糙集方法要求数值用离散数据表达,对于连续值则在处理前必须进行离散化处理.真实数据往往存在连续值,为了避免运用粗糙集方法所必需的离散化过程带来的信息丢失,将差异关系应用于粗糙集的知识约简.为进一步增强差异关系粗糙集对噪声数据的适应能力,提出基于差异关系的变精度粗糙集知识约简算法,并分析差异关系下变精度粗糙集模型参数的特性,给出依赖度和参数范围关系描述,将参数取值从点扩展到区间范围.在UCI数据库的数据集上进行实验,结果证明了所提方法及相关理论的有效性.  相似文献   

16.
纪滨 《微机发展》2008,18(2):126-128
随着数据挖掘的兴起,有许多分类和预测的方法。数据挖掘研究的实旌对象多为关系型数据库,这给粗糙集方法的应用带来了极大的方便。关系表可被看作为粗糙集理论中的决策表,而利用粗糙集理论来处理数据挖掘有着传统挖掘工具所不具有的优点。粗糙集理论是一种处理不确定和不精确问题的数学工具,文中通过实例介绍了粗糙集的基本理论,并通过实例详细介绍了在基于对决策表属性约简的基础上采用了可变精度粗糙模型实现规则的获取。该实例说明了对于不完备的信息系统,应用粗糙集理论进行数据挖掘是非常有效的。  相似文献   

17.
徐袭  刘玉波  范学鑫 《微计算机信息》2007,23(18):174-175,178
针对大量连续属性值的数据挖掘,提出了一种基于模糊工具箱和ROSETTA软件的粗糙集数据挖掘方法.在粗糙集理论的基础上,应用模糊工具箱中的模糊聚类方法离散分类连续属性值,并将其转化为粗糙集易于处理的知识表格.应用粗糙集数据挖掘软件ROSETTA对这些知识表格进行知识约简处理.通过约简知识属性和属性值,得到连续属性值的核心知识规则,并以实测数据为例,说明了该方法的实现过程和有效性.  相似文献   

18.
粗糙集属性应急数据存在冗余特征,降低挖掘效率,提出基于信息熵的粗糙集属性应急数据去重挖掘算法.将粗糙集理论和信息熵相结合,离散化处理应急数据,离散化完成后,约简对于决策表的条件信息熵大小不产生任何影响的属性,设定决策属性集合和条件属性集合,选取将同约简属性集合B的属性组合数目最小的熵值实现约简,去除冗余特征,完成应急数据去重挖掘.以大型船舶应急数据为研究对象展开数据去重挖掘,结果表明:可有效去重挖掘到船舶旋回性相关应急数据,利用数据增比特征能够分析到各因素对船舶旋回性的影响,并且所研究算法的挖掘效率较高,在数据量为1400条时,耗时仅为0.33 s.  相似文献   

19.
周世昊  倪衍森 《控制与决策》2011,26(10):1504-1510
连续属性离散化在数据挖掘、机器学习和人工智能等领域起着重要的作用.鉴于此,提出一种基于类-属性关联度的启发式离散化技术.该技术定义了一个新的离散化标准,根据数据本身的特性选择最佳断点,克服了目前最先进自顶向下离散化方法存在的缺陷.基于粗糙集理论中变精度粗糙集模型,提出一种新的不一致衡量标准,能够有效地控制离散化所产生的信息丢失,允许数据存在适当的分类错误度.实验结果和统计性分析表明,所提出的技术显著地提高了J4.8决策树和SVM分类器的学习精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号