首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
一种基于双层窗口的概念漂移数据流分类算法   总被引:1,自引:0,他引:1  
数据流中概念漂移问题的研究已成为近年来流数据挖掘领域的研究热点之一. 已有的研究工作多依据单窗口中错误率的变化来检测概念漂移,难以适应不同类型的漂移. 为此, 本文提出一种新的基于双层窗口机制的数据流分类算法(Double-windows-based classification algorithm for concept drifting data streams, DWCDS),该算法采用随机决策树模型构建集成分类器, 利用双层窗口机制周期性地检测滑动窗口中流数据分布的变化,并动态地更新模型以适应概念漂移. 分析与实验结果表明: 该算法可以快速有效地跟踪检测含噪数据流中的概念漂移,且抗噪性能与分类精度显著提高.  相似文献   

2.
一种高效的数据流挖掘增量模糊决策树分类算法   总被引:3,自引:0,他引:3  
数据流具有数据持续到达、到达速度快、数据规模巨大等特点,这些都给数据流挖掘领域的研究工作带来了新挑战,而其中分类算法更是当前的研究热点.Domingos等在VFDT中利用Hoeffding不等式很好地解决了在数据流上进行单遍扫描获取高精度决策树的问题.Gama等对VFDT进行扩展并实现了VFDTc,使系统能够处理连续属性.Peng等在传统数据挖掘环境下提出了基于模糊理论的连续属性平滑离散化方法.基于前述工作,作者设计并实现了一种基于线索化排序二叉树的增量模糊决策树分类算法fVFDT,其主要贡献有如下4点:(1)第一次设计并实现了数据流上的基于线索化二叉排序树(TBST)的连续属性处理方法.相比VFDT,fVFDT的样本插入时间复杂度由O(n2)降低到O(nlogn).当新样本到达时,VFDTc需要更新O(logn)个属性节点,而fVFDT只需要更新相应的一个节点即可;(2)改进了VFDTc连续属性的最佳划分节点选取的计算方法,使其时间复杂度由O(nlogn)降低到O(n);(3)根据Fayyad等的研究成果,相比VFDTc,fVFDT只需从更少的备选划分节点中选取最佳节点,备选划分节点数由O(n)降低到O(logn);(4)改进了传统数据挖掘环境下的基于模糊理论的连续属性平滑离散化方法,有效地处理了噪声数据,很好地提高了分类精度.  相似文献   

3.
陈小东  孙力娟  韩崇  郭剑 《计算机科学》2016,43(4):219-223, 251
针对数据流中可能出现的概念漂移现象,采用改进的FCM算法进行模糊聚类,提出在大小可变的滑动窗口中通过度量相邻窗口之间的差异性来判断是否发生了概念漂移,并给出了相应的处理方法。实验表明该算法能够有效地检测出数据流中的概念漂移现象,具有很好的聚类效果和很高的时间效率。  相似文献   

4.
5.
基于自适应快速决策树的不确定数据流概念漂移分类算法   总被引:1,自引:0,他引:1  

由于不确定数据流中一般隐藏着概念漂移问题, 对其进行有效分类存在着很多困难. 为此, 提出一种基于自适应快速决策树的算法. 该算法基于一般决策树算法的原理, 以自适应学习规则计算信息增益, 以无标记情景学习拆分原理检测不确定数据流中的不确定数值属性, 通过自适应快速决策树节点的拆分方法将不确定数值属性转化为不确定分类属性, 以实现对不确定数据流的有效分类, 进而有效检测到其中隐含的概念漂移现象. 仿真结果验证了所提出方法的可靠性.

  相似文献   

6.
为改善模糊决策树算法凭经验设定参数值的不准确问题,在分析模糊决策树算法的主要参数特征后,提出使用粒子群算法智能设定参数值的自适应模糊决策树算法.实验表明,与经验设定参数值的模糊决策树算法相比,自适应模糊决策树算法生成的模糊决策树的性能明显提高;最后,通过实验数据分析了关键参数之间存在的交互影响关系.  相似文献   

7.
大家知道,传统的决策树算法,如:ID3,C4.5等,存在逻辑表达差、互信息计算复杂、性能改善比较困难等缺陷.仅考虑决策树的错误率;未考虑树的节点、深度等.对属性值分组时逐个探索;没有使用一种启发式搜索的机制.分组效率较低.本文针对此情况,提出了一种免疫模糊关联分类决策树算法.本算法克服了上述缺陷,对决策树的性能有明显改善.  相似文献   

8.
传统决策树通过对特征空间的递归划分寻找决策边界,给出特征空间的“硬”划分。但对于处理大数据和复杂模式问题时,这种精确决策边界降低了决策树的泛化能力。为了让决策树算法获得对不精确知识的自动获取,把模糊理论引进了决策树,并在建树过程中,引入神经网络作为决策树叶节点,提出了一种基于神经网络的模糊决策树改进算法。在神经网络模糊决策树中,分类器学习包含两个阶段:第一阶段采用不确定性降低的启发式算法对大数据进行划分,直到节点划分能力低于真实度阈值[ε]停止模糊决策树的增长;第二阶段对该模糊决策树叶节点利用神经网络做具有泛化能力的分类。实验结果表明,相较于传统的分类学习算法,该算法准确率高,对识别大数据和复杂模式的分类问题能够通过结构自适应确定决策树规模。  相似文献   

9.
互联网环境日新月异,使得网络数据流中存在概念漂移,对数据流的分类也由传统的静态分类变为动态分类,而如何对概念漂移进行检测是动态分类的关键.本文提出一种基于概念漂移检测的网络数据流自适应分类算法,通过比较滑动窗口中数据与历史数据的分布差异来检测概念漂移,然后将窗口中数据过采样来减少样本间的不均衡性,最后将处理后的数据集输...  相似文献   

10.
将k-近邻算法和决策树这两种算法结合在一起形成一种新的分类算法,提出的数据流分类算法具有某些方面的智能性,能够在一定程度上识别已知和未知的数据流.  相似文献   

11.
张秋余  竭洋  李凯 《计算机应用》2008,28(12):3227-3230
针对模糊支持向量机在文本分类应用中的隶属度函数确定问题,提出了一种基于模糊支持向量机与决策树的文本分类器的构建方法。该方法不仅考虑了样本与类中心之间的关系,还根据传统支持向量机中包含支持向量且平行于分类面的平面构建切球,来确定类中各个样本之间的关系,由样本点与球的位置关系计算其隶属度,可以合理地区分有效样本和噪音、孤立点样本。并与决策树方法相结合,实现多类分类。实验结果表明,该方法具有良好的分类效果。  相似文献   

12.
多变量时间序列的模糊决策树挖掘*   总被引:4,自引:0,他引:4  
针对目前时间序列决策研究方法的一些缺陷,提出了多变量时间序列模糊决策树挖掘方法,并给出了该方法的实验分析。实验结果证明该方法能够找出多变量时间序列子序列的形态与某个序列的后期趋势或状态的决策信息。  相似文献   

13.
王雅辉  钱宇华  刘郭庆 《计算机应用》2021,41(10):2785-2792
传统决策树算法应用于有序分类任务时存在两个问题:传统决策树算法没有引入序关系,因此无法学习和抽取数据集中的序结构;现实生活中存在大量模糊而非精确的知识,而传统的决策树算法无法处理存在模糊属性取值的数据。针对上述问题,提出了基于模糊优势互补互信息的有序决策树算法。首先,使用优势集表示数据中的序关系,并引入模糊集来计算优势集以形成模糊优势集。模糊优势集不仅能反映数据中的序信息,而且能自动获取不精确知识。然后,在模糊优势集的基础上将互补互信息进行推广,并提出了模糊优势互补互信息。最后,使用模糊优势互补互信息作为启发式,设计出基于模糊优势互补互信息的有序决策树算法。在5个人工数据集及9个现实数据集上的实验结果表明,所提算法在有序分类任务上较经典决策树算法取得了更低的分类误差。  相似文献   

14.
The problem of risk classification and prediction, an essential research direction, aiming to identify and predict risks for various applications, has been researched in this paper. To identify and predict risks, numerous researchers build models on discovering hidden information of a label (positive credit or negative credit). Fuzzy logic is robust in dealing with ambiguous data and, thus, benefits the problem of classification and prediction. However, the way to apply fuzzy logic optimally depends on the characteristics of the data and the objectives, and it is extraordinarily tricky to find such a way. This paper, therefore, proposes a general membership function model for fuzzy sets (GMFMFS) in the fuzzy decision tree and extend it to the fuzzy random forest method. The proposed methods can be applied to identify and predict the credit risks with almost optimal fuzzy sets. In addition, we analyze the feasibility of our GMFMFS and prove our GMFMFS‐based linear membership function can be extended to a nonlinear membership function without a significant increase in computing complex. Our GMFMFS‐based fuzzy decision tree is tested with a real dataset of US credit, Susy dataset of UCI, and synthetic datasets of big data. The results of experiments further demonstrate the effectiveness and potential of our GMFMFS‐based fuzzy decision tree with linear membership function and nonlinear membership function.  相似文献   

15.
节点属性的选择是决策树生成过程中的关键环节,以ID3和C4.5为代表的经典决策树算法中,树节点的选择是通过子集样本数计算信息增益或增益比例得到的。但是,对于连续性属性,由于离散化分割导致了子集边界元素在隶属关系上的模糊,使样本计算的方式存在了一定的不合理性,为解决这一问题,采用了模糊集理论并以模糊度的方式取代样本个数参与增益比例的计算,给出了一种获得决策树分类中不确定性尺度的可行途径。  相似文献   

16.
张堃  周德云  王谦  顾潮琪  徐杰 《计算机应用》2011,31(12):3255-3257
针对机载多传感器调度管理的困难,提出基于模糊决策树的机载多传感器智能管理方法。该方法将作战阶段与目标类型相结合,构建不同目标属性,建立基于目标类型的模糊决策树模型,在此基础上建立机载多传感器动态智能管理模型,并进行空战仿真验证。仿真结果表明该方法与作战阶段动态相关,能快速有效地完成机载多传感器调度管理。  相似文献   

17.
针对由数据表述产生的不确定性模糊系统的模型检测问题,给出模糊计算树逻辑模型检测算法。首先,引入模糊决策过程作为此类系统的模型,其最大特点是在迁移过程中对动作的不确定性选择和状态表述的模糊性。然后,在模糊决策过程基础上,给出模糊计算树逻辑的语法和语义。最后,给出模糊计算树逻辑模型检测算法,该算法是将模糊计算树逻辑模型检测问题转换为模糊矩阵的合成运算,其优势是时间复杂度低、计算过程较为简洁。  相似文献   

18.
动态数据流具有数据量大、变化快、随机存取代价高、详细数据难以存储等特点,挖掘动态数据流对计算能力与存储能力要求非常高。针对动态数据流的以上特点,设计了一种基于自助抽样的动态数据流贝叶斯分类算法,算法运用滑动窗口模型对动态数据流进行处理分析。该模型以每个窗口的数据为基本单位,对窗口内的数据进行处理分析;算法采用自助抽样技术对待分类数据中的属性进行裁剪和优化,解决了数据属性间的多重线性相关问题;算法结合贝叶斯算法的特点,采用动态增量存储树来解决动态样本数据流的存储问题,实现了无限动态数据流无信息失真的静态有限存储,解决了动态数据流挖掘最大的难题——数据存储;对优化的待分类数据使用all-贝叶斯分类器和k-贝叶斯分类器进行分类,结合数据流的特性对两个分类器进行实时更新。该算法有效克服了贝叶斯分类属性独立性的约束和传统贝叶斯只对静态数据分类的缺点,克服了动态数据流最大的难题——数据存储问题。通过实验测试证明,基于自助抽样的贝叶斯分类具有很高的时效性和精确性。  相似文献   

19.
基于模糊决策树的出口纺织品反倾销预警系统   总被引:2,自引:0,他引:2       下载免费PDF全文
以中国和欧盟的纺织品贸易为研究对象,并在此基础上建立基于模糊决策树的反倾销预警系统,从而为政府研究和制定反倾销政策和措施提供依据,避免或减少反倾销给我国纺织业造成的损失。选取欧盟贸易保护程度、中国纺织品出口增长速度、双边贸易摩擦程度、市场经济程度4个综合预警指标,区别于传统的建模方法,应用模糊决策树技术建立纺织品反倾销预警系统。检验结果表明该预警模型具有较好的预测效果,在反倾销预警领域里有较好的应用前景。  相似文献   

20.
基于SPRINT方法的并行决策树分类研究   总被引:9,自引:0,他引:9  
决策树技术的最大问题之一就是它的计算复杂性和训练数据的规模成正比,导致在大的数据集上构造决策树的计算时间太长。并行构造决策树是解决这个问题的一种有效方法。文中基于同步构造决策树的思想,对SPRINT方法的并行性做了详细分析和研究,并提出了进一步研究的方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号