首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
针对PHM(Prognostic and Health Management)中数据挖掘和知识获取困难的问题,提出一种以J48决策树算法为基础的故障诊断方法。采用了开源数据挖掘软件Weka,对CTSV滤波器故障仿真数据进行计算,对故障数据进行属性清理和参数选择。生成的决策树模型有很高的交叉验证率和分类效果。  相似文献   

2.
数值型数据的泛概念树的自动生成方法   总被引:35,自引:0,他引:35  
概念层次在数据挖掘中有着重要的作用 .通过自动生成概念层次 ,可有效地提高数据挖掘的效率 ,在不同层次上发现知识 .文中介绍基于云模型的数值型概念表示方法 ,通过云模型的期望值、熵和超熵三个数字特征有效地表达定性概念 ,并实现定性和定量的不确定转换 .通过云变换实现了泛概念树中叶结点的自动生成 ,并自动构造数值型数据的泛概念树 .同时 ,进一步研究了泛概念树中的概念爬升和跳跃的方法 ,为通过数据挖掘发现各层次知识提供了基础 .  相似文献   

3.
李文翔  夏德麟 《计算机工程与设计》2005,26(12):3389-3391,3412
在数据挖掘系统的研究设计中,知识的获取和表示是一个备受关注的问题。提出的知识约简方法——差异相似矩阵算法,根据信息系统中各个样本的属性取值的差异性和相似性,构建矩阵模型,求取各决策类的最佳约简属性集,得出用于指导分类的规则知识。基于该算法开发的知识约简系统,能够有效地应用于大规模数据集的分析处理中。  相似文献   

4.
决策树算法及其常见问题的解决   总被引:16,自引:0,他引:16  
决策树这种数据挖掘技术是目前最有影响和使用最多的数据挖掘技术之一,生成决策树的算法也比较多,但是在这些生成决策树的算法中都需要解决两个问题——数据过分近似和测试属性的选择。  相似文献   

5.
在数据挖掘问题中,一个基本假设是训练集样本与测试集样本的数据分布一致,但随着数据量逐渐增加,如何在海量数据中找出具有代表意义的数据也变得尤为困难。对现有的数据选择方法研究发现,传统的简单随机抽样和渐进抽样等数据选择方法,由于没有和数据挖掘工具进行结合,采样结果具有偶然性和不确定性,抽样数据很难保证数据挖掘的基本假设,这也使得最终模型的泛化误差较大。为了解决数据采样过程中类间的不平衡问题,提出一种基于双决策树的结构化数据采样方法。首先通过C4.5算法生成一棵决策树,借助决策树在数据源中选择适合的数据和数据采集点,同时通过使用另一棵决策树对选择出的数据集的质量进行评估来达到高效率和高质量的数据采样。实验表明,与简单随机抽样相比,新采样数据下训练的模型准确率有明显提高。  相似文献   

6.
数据挖掘是一项热门技术,该技术融合了数据库、统计学等领域知识,关联规则的挖掘则能找出商品销售中商品之间的联系。本文针对Apriori算法,及其改进算法FP-Growth进行了研究,对比了Apriori算法与FPGrowth算法的效率,得出FP-Growth算法由于只需要对数据进行一次扫描即可生成相应的数据集,使其生成数据集的整体效率要高于Apriori算法。  相似文献   

7.
数据挖掘是近年来数据库领域中出现的一个新兴研究热点,它是从大量数据中获取知识。进行数据挖掘的方法很多,粗糙集方法便是其中的主要方法之一。属性约简算法是基于粗糙集理论的数据挖掘模型中的关键步骤,同时也是粗糙集理论研究中的一个研究重点。通过对粗糙集理论的属性约简算法的深入研究,本文提出了一种改进的属性约简启发式算法。该算法建立在可辨识矩阵计算基础上。改进算法基于Hu的算法与Jelonek算法,在计算可辨识矩阵的基础上,保证最终能够找到决策信息系统的一个约简,同时较Jelonek算法相比,运算时间明显减少。  相似文献   

8.
属性约简是应用粗糙集理论进行数据挖掘有效的方法之一,HORAFA属性约简算法它的不足之处在于约简效率和完备性.应用粗糙集对知识分类的特点,建立了新的数据挖掘模型.在模型的属性约简模块中,详细分析了HORAFA算法,提出了对其改进的HORAFA-AFVDM算法.该算法是在核中依次加入属性重要性最大的属性a,对于Red=Red è{a},当POSred-ai(D)=POSC(D)时删除a,直到不能再删为止,保证了算法的完备性.实验在MATLAB环境下实现,算法的测试数据来源于UCI数据集,通过对改进前后两种算法的比较,证实了改进后算法从属性约简效率和算法运行时间上均比之前的算法有显著的提高,文中将该数据挖掘模型应用到短信数据挖掘系统中.  相似文献   

9.
数据挖掘就是从海量的数据中挖掘出可能有潜在价值的信息的技术。决策树方法是一种典型的分类算法.首先对数据进行处理,利用归纳算法生成可读的规则和决策树模型,然后使用决策树模型对新数据进行分析。该文以大学生专业方向指导辅助系统的开发过程为实例从理论上论述了数据挖掘的概念、数据挖掘研究内容和本质以及进行数据挖掘的主要方法。讲述了使用MATLAB7.0开发实现决策树算法子系统的方法和实现,并且对生成的决策树模型进行分析。  相似文献   

10.
研究探索了包括目标理解、准备数据、数据预处理、建立模型、评估解释、知识应用等水文数据挖掘的六个过程。并采用公共的数据处理和挖掘算法,实现各过程之间数据无缝连接,形成了松散耦合的水文数据挖掘系统体系框架。在实施水文数据挖掘过程中,将数据挖掘的一些数据处理方式应用到了水文领域,同时也采用了水文领域中的一些数据处理技术,实现了数据挖掘领域与专业领域的数据处理和评价方式融合。通过选取江苏省国家水文数据库中的两个不同代表性区域的水文资料,严格按照水文数据挖掘的过程控制,以水文相似年查找为突破口,实施数据挖掘。在全方位地对结果分析、对比和评价后发现,以数据挖掘的方法,采用聚类分析中分层聚类的凝聚算法,进行水文相似年查找所发现的结果与水文领域专家知识基本相符。  相似文献   

11.
正态云关联规则在预测中的应用   总被引:25,自引:1,他引:24  
在信息处理领域,用数据挖掘方法发现关联规则和进行预测是两大热点,首先借助正态云模型来替代对数量属性论域的划分,并提出数量属性上的正态云关联规则的概念,接着给出挖掘正态云关联规则的方法,并利用已挖掘出的正态云关联规则进行预测,由于正态云模型较好地软化了数量属性论域的划分边界,从而使得挖掘出的正态云关联规则与预测的结果更容易被人理解。  相似文献   

12.
基于云的概念划分及其在关联采掘上的应用   总被引:30,自引:0,他引:30  
杜益鸟  李德毅 《软件学报》2001,12(2):196-203
将数量型属性转换为布尔型属性是数量型属性关联规则采掘的主要方法,但如何使区间的划分合理一直是研究的热点.传统的划分方法由于不能反映数据间的实际分布规律或者是划分的边界过硬,使得最终都不能得到令人容易理解的关联知识.提出了一种基于云模型的新划分方法——云变换,可以有效地根据数据的实际分布将数量型属性的定义域划分为多个基于云的定性概念,这种划分摒弃了以前的硬划分,使得到的结果除了保留传统硬划分所具有的优点以外,也更加符合实际的数据分布和人的思维方式,从而最终得到概括的、易理解的、有效的关联规则.  相似文献   

13.
云理论及其在空间数据发掘和知识发现中的应用   总被引:49,自引:2,他引:47       下载免费PDF全文
云理论是以研究定性定量间的不生转换为基础的系统处理不确定性问题的一新理论,包括云模型,虚云,云运算,云变换,不确定性推理等内容,云理论为数据发掘和知识发现中的许多基础性关键问题提供了新的解决方法,如概念和知识表达,定性定量转换,概念的综合与分解,从数据中生成概念和概念层次结构等。  相似文献   

14.
Knowledge Representation in KDD Based on Linguistic Atoms   总被引:11,自引:0,他引:11       下载免费PDF全文
  相似文献   

15.
面向服务的云数据挖掘引擎的研究   总被引:1,自引:0,他引:1       下载免费PDF全文
数据挖掘算法处理海量数据时,扩展性受到制约。在商业和科学研究的各个领域,知识发现的过程和需求差异较大,需要有效的机制来设计和运行各种类型的分布式数据挖掘应用。提出了一种面向服务的云数据挖掘引擎的框架CloudDM。不同于基于网格的分布式数据挖掘框架,CloudDM利用开源云计算平台Hadoop处理海量数据的能力,以面向服务的形式支持分布式数据挖掘应用的设计和运行,并描述面向服务的云数据挖掘引擎系统的关键部件和实现技术。依据面向服务的软件体系结构和基于云平台的数据挖掘引擎,可以有效解决海量数据挖掘中的海量数据存储、数据处理和数据挖掘算法互操作性等问题。  相似文献   

16.
李玲娟  张敏 《微机发展》2011,(2):43-46,50
云计算为存储和分析海量数据提供了廉价高效的解决方案,云计算环境下的数据挖掘算法的研究具有重要的理论意义和应用价值。针对云计算环境下的关联规则挖掘算法展开研究,介绍了云计算的概念、Hadoop框架平台、MapReduce编程模型和传统的Apriori算法;在此基础上,以实现云计算环境下的并行化数据挖掘为目的,对Apriori算法进行了改进,给出了改进的算法在Hadoop中的MapReduce编程模型上的执行流程;通过一个简单的频繁项集挖掘实例展示了改进的算法的执行效率及实用性。  相似文献   

17.
面向云计算的数据挖掘系统架构研究*   总被引:1,自引:0,他引:1  
随着计算机网络技术特别是云计算的发展,传统的数据挖掘系统已不能再适应新的变化了的情况。在基于云计算平台的数据挖掘系统解决方案尚未形成明确的框架情况下。结合当前数据挖掘系统的优缺点及云计算的优势,构建了一种面向云计算的数据挖掘系统架构,并对其中的重要组成模块进行了详尽地描述,该框架有利于解决当前数据挖掘系统存在的数据共享性差、扩展性低及价格昂贵等一系列问题;也不失为今后面向云计算平台的数据挖掘系统架构研究提供一定的参考性作用。  相似文献   

18.
知识约简是数据挖掘应用中知识获取的重要步骤。经典的知识约简算法是一次性将小数据集装入内存中进行知识约简,而传统的并行知识约简仅仅利用任务并行来提高约简算法效率,都无法处理海量数据。通过分析经典的知识约简算法,构建了不可辨识的对象对,提出了保持边界域划分的知识约简算法,并探讨了保持边界域划分的知识约简算法之间的关系。深入剖析了知识约简算法中数据和任务同时并行的可行性,提出了云计算环境下保持边界域划分的知识约简算法框架模型,在Hadoop平台上构建了云计算环境并进行了相关实验。实验结果表明该知识约简算法可以处理海量数据集。  相似文献   

19.
云计算为存储和分析海量数据提供了高效的解决方案,对数据挖掘算法的研究具有重要的理论意义和应用价值。SLIQ算法采用逐一遍历并计算伸缩性指标的方法来寻找最佳分裂点,这种方法过于消耗时间,当数据量增大时,算法的执行效率很低。本文针对云计算环境下的决策规则挖掘算法展开研究,介绍了Map Reduce编程模型,在此基础上,以实现云计算环境下SLIQ并行化挖掘为目的,给出了改进后的SLIQ算法在Map Reduce编程模型上的应用过程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号