首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
数据流具有数据持续到达、到达速度快、数据规模巨大等特点,这些都给数据流挖掘领域研究工作带来了新挑战,而其中分类算法更是当前的研究热点. Domingos等人在VFDT中利用Hoeffding不等式很好地解决了在数据流上进行单遍扫描获取高精度决策树的问题. Gama等人对VFDT进行扩展并实现了VFDTc,使系统能够处理连续属性,并在叶节点采用了贝叶斯分类算法使分类精度更高.基于VFDT和VFDTc,设计并实现了一种基于线索化二叉排序树的决策树分类新算法VFDTt,其主要贡献有如下3点:1)第1次设计并实现了数据流上的基于线索化二叉排序树(TBST)的连续属性处理方法.相比VFDT,VFDTt的样本插入时间复杂度由O(n2)降低到O(nlogn).当新样本到达时,VFDTc需要更新O(logn)个属性节点,而VFDTt只需要更新相应的一个节点即可. 2)改进了VFDTc连续属性的最佳划分节点选取的计算方法,使其时间复杂度由O(nlogn)降低到O(n). 3)相比VFDTc,VFDTt只需从更少的备选划分节点中选取最佳节点,备选划分节点数由O(n)降低到O(logn).  相似文献   

2.
数据流挖掘分类技术是数据挖掘领域非常具有挑战性的工作。VFDT利用Hoeffding不等式很好地解决了在数据流上进行单遍扫描获取高精度决策树的问题;VFDTc改进了V-FDT ,使其能够处理连续属性。基于VFDT和VFDTc,我们设计并实现了一种基于排序二叉树的高效算法V-FDT-BSTree。该算法解决了VFDTc中存在的问题,提高了样本动态插入和最 佳划分节点选取的速度,从而提高了分类速度。实验结果表明,VFDT-BSTree在保持决策树大小和分类精度不变的基础上,执行时间相比VFDT平均减少32.25%,比VFDTc平均均减少24.96%。  相似文献   

3.
属性频率划分和信息熵离散化的决策树算法   总被引:2,自引:0,他引:2       下载免费PDF全文
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,节点划分属性选择的度量直接影响决策树分类的效果。基于粗糙集的属性频率函数方法度量属性重要性,并用于分枝划分属性的选择和决策树的预剪枝,提出一种决策树学习算法。同时,为了能处理数值型属性,利用数据集的统计性质为启发式知识,提出了一种改进的数值型属性信息熵离散化算法。实验结果表明,新的离散化方法计算效率有明显提高,新的决策树算法与基于信息熵的决策树算法相比较,结构简单,且能有效提高分类效果。  相似文献   

4.
在数据流管理系统(data stream management system,DSMS)中嵌入数据挖掘算法对数据库研究者是一项新的挑战,而在数据流管理系统中嵌入快速决策树(very fast decision tree,VFDT),尚未见报道。利用DSMS原有的机制在Esper中实现了VFDT算法。其主要思想是将VFDT算法转换为Esper的数据查询语言(Esper query language,EQL)。给出了在DSMS中实现VFDT算法的两种方法:普通方法。直接将VFDT算法转化为EQL语言并在DSMS中实现(记作DVFDT);改进方法。通过Esper中固有的批量处理模式来实现(记作optimal-DVFDT)。通过一系列实验比较分析了两种方法对海量数据流分类的准确率和性能;将提出的两种方法与用Java实现的VFDT算法(记作JVFDT)在分类精度和时间上进行比较。结果表明,在DSMS中实现的VFDT算法具有较好的性能,并且该算法对大规模数据流数据的子集同样具有较高的性能。  相似文献   

5.
基于自适应快速决策树的不确定数据流概念漂移分类算法   总被引:1,自引:0,他引:1  

由于不确定数据流中一般隐藏着概念漂移问题, 对其进行有效分类存在着很多困难. 为此, 提出一种基于自适应快速决策树的算法. 该算法基于一般决策树算法的原理, 以自适应学习规则计算信息增益, 以无标记情景学习拆分原理检测不确定数据流中的不确定数值属性, 通过自适应快速决策树节点的拆分方法将不确定数值属性转化为不确定分类属性, 以实现对不确定数据流的有效分类, 进而有效检测到其中隐含的概念漂移现象. 仿真结果验证了所提出方法的可靠性.

  相似文献   

6.
本文重点研究了数据流挖掘中存在概念漂移情形的连续属性处理算法。数据流是一种增量、在线、实时的数据模型。VFDT是数据流挖掘中数据呈稳态分布情形下最成功的算法之一;CVFDT是有效解决数据流挖掘中概念漂移问题的算法之一。基于CVFDT,本文提出了有效地解决数据流挖掘中存在概念漂移情形的连续属性处理问题的扩展哈希表算法HashCVFDT。该算法在属性值插入、查找和删除时具有哈希表的快速性,而在选取每个连续属性的最优化划分节点时解决了哈希表不能有序输出的缺点。  相似文献   

7.
胡运禄  于津 《福建电脑》2013,29(3):118-121
连续型属性的离散化是数据挖掘研究中一个重要的组成部分,连续属性离散化方法的性能对数据挖掘结果会产生直接的影响。本文将基于目标函数的模糊聚类算法-FCM引入到连续属性离散化中,在对FCM算法中的模糊聚类数目a和初始聚类中心位置进行优化的基础上,提出了改进的NFCM算法,根据需要离散化的数据分布特点来进行离散化,减少了模糊聚类算法的迭代次数,提高了连续属性离散化的效率。  相似文献   

8.
许俊 《福建电脑》2006,(12):34-35
决策树是分类数据挖掘的重要方法。其中,经典ID3算法根据具有最大信息增益的属性对训练样本集进行分类,适用于离散型属性。C4.5算法延用了ID3算法的基本策略,增加了处理连续数值型属性的方法。本文在其基础上讨论了新的基于属性变换的离散化处理方法。该方法基于统计概率信息,依据概率属性的最佳分裂对应分裂连续属性,增加了决策树的分类精度。  相似文献   

9.
提出了一种基于最佳分类数和粗糙集理论的汽轮机轴系振动故障诊断方法。该方法利用模糊C均值聚类算法(FCM)把数据的连续属性离散化,以形成隶属度矩阵及属性分类数,根据隶属度矩阵及属性分类数进行划分系数和划分熵的有效性评判,最终找到连续属性的最佳分类数。然后根据最佳分类数对数据的连续属性进行实际的离散化,将离散化后形成的离散数据根据粗糙集理论,进行数据挖掘,得到诊断规则,有效提高了汽轮机轴系振动故障的诊断水平。  相似文献   

10.
分析了针对连续属性样本进行数据挖掘的缺陷,提出一种直接对连续属性样本进行分类规则挖掘的算法.它基于样本属性值分割点对实例样本进行分类,把分割点对实例样本的分类能力作为分割点选择的依据,将所有相容样本划分为分类属性值相同的子集作为停机条件,实现连续属性样本分类规则挖掘的完全自动化.它考虑到数据挖掘的目标和要求,充分利用属性与类间的依赖性、属性间的互补性,达到样本分割点数少、分类规则简单和属性约减的目的.最后通过实例进行了验证,并与C4.5算法进行了比较.  相似文献   

11.
《计算机科学》2007,34(4):148-148
Recent years have seen rapid advances in various grid-related technologies, middleware, and applications. The GCC conference has become one of the largest scientific events worldwide in grid and cooperative computing. The 6th international conference on grid and cooperative computing (GCC2007) Sponsored by China Computer Federation (CCF),Institute of Computing Technology, Chinese Academy of Sciences (ICT) and Xinjiang University ,and in Cooperation with IEEE Computer Soceity ,is to be held from August 16 to 18, 2007 in Urumchi, Xinjiang, China.  相似文献   

12.
Abstract This paper describes an approach to the design of interactive multimedia materials being developed in a European Community project. The developmental process is seen as a dialogue between technologists and teachers. This dialogue is often problematic because of the differences in training, experience and culture between them. Conditions needed for fruitful dialogue are described and the generic model for learning design used in the project is explained.  相似文献   

13.
本文分析了法律数据库的结构和特点,介绍了采用面向对象设计方法和超文本数据库技术开发和实现法律信息库系统将作为重要网络资源之一为不同用户进行法律咨询服务。  相似文献   

14.
15.
16.
正SCIENCE CHINA Information Sciences(Sci China Inf Sci),cosponsored by the Chinese Academy of Sciences and the National Natural Science Foundation of China,and published by Science China Press,is committed to publishing highquality,original results of both basic and applied research in all areas of information sciences,including computer science and technology;systems science,control science and engineering(published in Issues with odd numbers);information and communication engineering;electronic science and technology(published in Issues with even numbers).Sci China Inf Sci is published monthly in both print and electronic forms.It is indexed by Academic OneFile,Astrophysics Data System(ADS),CSA,Cabells,Current Contents/Engineering,Computing and Technology,DBLP,Digital Mathematics Registry,Earthquake Engineering Abstracts,Engineering Index,Engineered Materials Abstracts,Gale,Google,INSPEC,Journal Citation Reports/Science Edition,Mathematical Reviews,OCLC,ProQuest,SCOPUS,Science Citation Index Expanded,Summon by Serial Solutions,VINITI,Zentralblatt MATH.  相似文献   

17.
正Erratum to:J Zhejiang Univ-Sci C(ComputElectron)2014 15(7):551-563doi:10.1631/jzus.C1300320The original version of this article unfortunately contained mistakes.Algorithm 6 should be as follows:Algorithm 6 FGKFCM-F clustering Input:(1)X={x_1,x_2,…,x_N},,x_iR~d,i=1,2,…,N,the dataset;(2)C,1C≤N,the number of clusters;(3)ε0,the stopping criterion;  相似文献   

18.
19.
磨矿过程的大滞后和时变性等特点,致使对磨机负荷的最佳工作点很难进行稳定、高效的控制,针对以上情况,借鉴生物界的免疫反馈原理和遗传算法,利用模糊控制可以有效地实现对非线性、纯滞后、复杂的对象进行控制的优点,并结合PID与自寻优方法,设计出磨机负荷专家控制系统,用VB编写OPC客户端及控制程序,实现对磨机负荷的动态优化控制;试验结果表明,文章提出的控制策略能够增强系统的稳定性,且在干扰存在的情况下也能很好的跟随系统的参数变化,在提高磨机台时产量的同时增加了矿厂的经济效益.  相似文献   

20.
由于无线传感器网络中的节点链路状况、数据传输能耗及节点剩余能量的限制,造成网络中部分感知节点寿命缩短,影响网络生存周期,提出了一种基于人工蜂群算法的WSNs能耗均衡算法,优化网络能耗均衡,从而提高网络寿命;文章给出了网络能耗相应的数学模型及优化求解算法,介绍人工蜂群算法的寻找食物过程,阐述了人工蜂群算法在网络能耗均衡方面的实现步骤;通过实验仿真证明,文章提到的算法与LEACH分簇算法、蚁群优化算法相比,具有更好的能耗和负载均衡能量、丢包率和时延性,有效地提高了网络生存周期.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号