首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 531 毫秒
1.
江晶晶  王志海  原继东 《计算机科学》2017,44(7):167-174, 202
依据从大规模数据中抽取的模式来建立分类模型是模式挖掘的重要研究问题之一。一种可行的方法是根据模式集合建立贝叶斯分类模型。然而,目前基于模式的贝叶斯分类模型大多是针对静态数据集合的,通常不能适应于高速动态变化与无限的数据流环境。对此,提出一种数据流环境下基于模式发现的贝叶斯分类学习模型,其采用半懒惰式学习策略,针对分类实例在不断更新的频繁项集合上建立局部的分类模型;为加快流数据处理的速度,提出了结构更为简单的混合树结构,同时提出了给定项限制的模式抽取机制以减少候选项集的生成;对数据流中模式抽取不完全的情况,使用平滑技术处理未被抽取的项。大量实验分析证明,相较于其他数据流分类器,所提模型具有更高的分类正确率。  相似文献   

2.
一种与神经元网络杂交的决策树算法   总被引:7,自引:0,他引:7  
神经元网络在多数情况下获得的精度要比决策树和回归算法精度高,这是因为它能适应更复杂的模型,同时由于决策树通常每次只使用一个变量来分支,它所对应的识别空间只能是超矩形,这也就比神经元网络简单,粗度不能与神经元网络相比,然而神经元网络需要相对多的学习时间,并且其模型的可理解性不如决策树、Naive-Bayes等方法直观,本文在进行两种算法对复杂模型的识别对比后,提出了一个新的算法NNTree,这是一个决策树和神经元网络杂交的算法,决策树节点包含单变量的分支就象正常的决策树,但是叶子节点包含神经元网络分类器,这个方法针对决策树处理大型数据的效能,保留了决策树的可理解性,改善了神经元网络的学习性能,同时可使这个分类器的精度大大超过这两种算法,尤其在测试更大的数据集复杂模型时更为明显。  相似文献   

3.
在数据挖掘中决策树方式是一种分类方法,决策树像是一个树形结构,在数据挖掘过程中要对其进行一定的测试,每个决策树上都有节点,每个节点就代表着类别.人们可以利用决策树来对数据进行分门别类,按照模型中属性测试结果找到合适的路径,然后把叶节点属性值进行记录得出最后的分类结果.阐述了决策树的基本概念,利用决策树算法挖掘数据,针对不同的算法选出最佳的方案,给相关人员提出合理化建议.  相似文献   

4.
赵晓峰  叶震 《计算机应用》2007,27(5):1041-1043
传统的决策树分类方法(如ID3和C4.5)对于相对小的数据集是很有效的。但是,当这些算法用于入侵检测这样的非常大的数据时,其有效性就显得不足。采用了一种基于随机模型的决策树算法, 在保证分类准确率的基础上,减少了对系统资源的占用,并设计了基于此算法的分布式入侵检测模型。最后通过对比试验表明该模型在对计算机入侵数据的分类上有着出色的表现。  相似文献   

5.
传统的决策树分类方法(如ID3和C4.5),对于相对小的数据集是很有效的。但是,当这些算法用于入侵检测这样的非常大的、现实世界中的数据时,其有效性就显得不足。采用了一种基于随机模型的决策树算法,在保证分类准确率的基础上,减少了对系统资源的占用,并通过对比实验表明该算法在对计算机入侵数据的分类上有着出色的表现。  相似文献   

6.
决策树算法采用递归方法构建,训练效率较低,过度分类的决策树可能产生过拟合现象.因此,文中提出模型决策树算法.首先在训练数据集上采用基尼指数递归生成一棵不完全决策树,然后使用一个简单分类模型对其中的非纯伪叶结点(非叶结点且结点包含的样本不属于同一类)进行分类,生成最终的决策树.相比原始的决策树算法,这样产生的模型决策树能在算法精度不损失或损失很小的情况下,提高决策树的训练效率.在标准数据集上的实验表明,文中提出的模型决策树在速度上明显优于决策树算法,具备一定的抗过拟合能力.  相似文献   

7.
传统决策树通过对特征空间的递归划分寻找决策边界,给出特征空间的“硬”划分。但对于处理大数据和复杂模式问题时,这种精确决策边界降低了决策树的泛化能力。为了让决策树算法获得对不精确知识的自动获取,把模糊理论引进了决策树,并在建树过程中,引入神经网络作为决策树叶节点,提出了一种基于神经网络的模糊决策树改进算法。在神经网络模糊决策树中,分类器学习包含两个阶段:第一阶段采用不确定性降低的启发式算法对大数据进行划分,直到节点划分能力低于真实度阈值[ε]停止模糊决策树的增长;第二阶段对该模糊决策树叶节点利用神经网络做具有泛化能力的分类。实验结果表明,相较于传统的分类学习算法,该算法准确率高,对识别大数据和复杂模式的分类问题能够通过结构自适应确定决策树规模。  相似文献   

8.
决策树是一种有效的数据分类方法,它的构造方法很多。在这里,提出一种基于MMEPA(改进的最小熵原理方法)的决策树构造方法,并通过一个实例对其进行说明,用此方法提取分类规则,构造决策树模型。最后,对噪声剪枝等问题提出了解决思路。  相似文献   

9.
决策树是一种有效的数据分类方法,它的构造方法很多。在这里,提出一种基于MMEPA(改进的最小熵原理方法)的决策树构造方法,并通过一个实例对其进行说明,用此方法提取分类规则,构造决策树模型。最后,对噪声剪枝等问题提出了解决思路。  相似文献   

10.
基于SVM决策树的文本分类器   总被引:6,自引:0,他引:6  
研究了SVM决策树分类器在文本分类中的应用,提出了一种有效的SVM决策树分类器的优化构建方 法.该方法利用类间距离衡量两类间的可分性,并进一步用来描述各结点分类器类集合间的可分性.基于综合考虑结点分类器的类集合可分性,该方法能够获得优化的结点分类器类划分算法,由此构建的SVM决策树分类器在整体性能上得到优化,在文本分类中获得良好效果.  相似文献   

11.
采用粗糙集理论中的属性重要度作为挑选测试属性的指标来构造决策树,形成了一种新的决策树分类算法S_D_Tree,在计算挑选测试属性的时间复杂度为O(|C||n|)。实验结果表明,该算法可以构建一个较简洁的决策树,与C4.5算法相比较,具有更好的预测准确率。  相似文献   

12.
如何解决在创建决策树时出现缺失值是决策树算法在规则提取方面的一个重要难题.讨论了决策树分类算法的基本原理后,对于数据集的数据不完整进行了分析,并给出了缺失值的具体解决方法.在创建决策树的过程中对缺失值进行填充时提出了填充缺失值的解决算法.  相似文献   

13.
本文介绍了数据库技术的现状、数据挖掘的方法以及它在Bayesian网建网技术中的应用:通过数据挖掘解决Bayesian网络建模过程中所遇到的具体问题,即如何从大规模数据库中寻找各变量之间的关系以及如何确定条件概率问题。通过将该方法应用于实际问题中的例子:绿化决策系统中如何选取树种,我们将看到此技术是有效和实用的。  相似文献   

14.
决策树方法在气温预测中的应用   总被引:1,自引:0,他引:1  
结合陕北某县30年的气象数据,利用决策树的CART分类方法,建立预测气温的决策树模型,为提高预测的正确率还尝试了分季节的温度预测模型。通过反复试验得到各个季节的最佳气温预测模型,为气象预测研究提供了一种参考方法。  相似文献   

15.
As a very effective method for universal purpose pattern recognition, support vector machine (SVM) was proposed for dichotomic classification problem, which exhibits a remarkable resistance to overfitting, a feature explained by the fact that it directly implements the principle of structural risk minimization. However, in real world, most of classification problems consist of multiple categories. In an attempt to extend the binary SVM classifier for multiclass classification, decision-tree-based multiclass SVM was proposed recently, in which the structure of decision tree plays an important role in minimizing the classification error. The present study aims at developing a systematic way for the design of decision tree for multiclass SVM. Kernel-induced distance function between datasets was discussed and then kernelized hierarchical clustering was developed and used in determining the structure of decision tree. Further, simulation results on satellite image interpretation show the superiority of the proposed classification strategy over the conventional multiclass SVM algorithms.  相似文献   

16.
用遗传算法构造二元决策树   总被引:3,自引:0,他引:3  
决策树的方法是一种优化的过程,遗传算法是模拟自然进化的通用全局搜索算法,文中将遗传算法应用到做到决策树,提出了采用遗传算法求解二元决策树的非叶结点的权值矢量,进而构造二元决策松的方法,并讨论了遗传算法的评介函数构造和编码方法,重点说明了如何对遗传算法进行改进,提高算法效率,然后分析了影响二元决策树错误分类率的因素,并用实例验证该方法构造的二元决策树对样本分类具有很高的辨识率。  相似文献   

17.
极小极大规则学习及在决策树规则简化中的应用   总被引:3,自引:0,他引:3  
文中在粗糙集理论中的约简概念的启发下提出极小规则和极大规则的概念及极小极大规则学习。  相似文献   

18.
《Intelligent Data Analysis》1998,2(1-4):165-185
Classification, which involves finding rules that partition a given dataset into disjoint groups, is one class of data mining problems. Approaches proposed so far for mining classification rules from databases are mainly decision tree based on symbolic learning methods. In this paper, we combine artificial neural network and genetic algorithm to mine classification rules. Some experiments have demonstrated that our method generates rules of better performance than the decision tree approach and the number of extracted rules is fewer than that of C4.5.  相似文献   

19.
This paper proposed a decision tree based classification method to detect e-mails that contain terrorism information. The proposed classification method is an incremental and user-feedback based extension of a decision tree induction algorithm named Ad Infinitum. We show that Ad Infinitum algorithm is a good choice for threatening e-mail detection as it runs fast on large and high dimensional databases, is easy to tune and is highly accurate, outperforming popular algorithms such as Decision Trees, Support Vector Machines and Naive Bayes. In particular, we are interested in detecting fraudulent and possibly criminal activities from such e-mails.  相似文献   

20.
This paper presents a novel algorithm named ID6NB for extending decision tree induced by Quinlan’s non-incremental ID3 algorithm. The presented approach is aimed at suggesting the solutions for few unhandled exceptions of the Decision tree induction algorithms such as (i) the situation in which the majority voting makes incorrect decision (generating two different types of rules for same data), and (ii) in case of dimensionality reduction by decision tree induction algorithms, the determination of appropriate attribute at a node where two or more attributes have equal highest information gain. Exception due to majority voting is handled with the help of Naive Bayes algorithm and also novel solutions are given for dimensionality reduction. As a result, the classification accuracy has drastically improved. An extensive experimental evaluation on a number of real and synthetic databases shows that ID6NB is a state-of-the-art classification algorithm that outperforms well than other methods of decision tree learning.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号