首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
在大数据环境下,为了提高航班延误预测精确度和数据处理速度,提出基于Spark框架下处理海量数据方法。本文使用决策树算法对航班数据进行分析,预测航班的延误情况,并与使用支持向量机,Logistic回归分类算法的预测结果进行比较。结果证明决策树算法具有较高的准确率和灵敏度,表明决策树算法可以应用到航班延误预测中,给航空机构提供数据支持。  相似文献   

2.
ID3算法是一种信息熵的决策树学习算法,把信息熵作为选择测试属性的标准,对训练实例集进行分类并构造决策树来预测如何由属性对整个实例空间进行划分。ID3算法对于相对小的数据集是很有效的,但对大型数据库而言,ID3算法无法处理。SLIQ分类算法使用了一些独特的技术,改进了学习的时间,同时在没有降低精确度的情况下,解决了对磁盘驻留大数据集的分类。具有更快的速度而且生成较小的树。  相似文献   

3.
传统决策树通过对特征空间的递归划分寻找决策边界,给出特征空间的“硬”划分。但对于处理大数据和复杂模式问题时,这种精确决策边界降低了决策树的泛化能力。为了让决策树算法获得对不精确知识的自动获取,把模糊理论引进了决策树,并在建树过程中,引入神经网络作为决策树叶节点,提出了一种基于神经网络的模糊决策树改进算法。在神经网络模糊决策树中,分类器学习包含两个阶段:第一阶段采用不确定性降低的启发式算法对大数据进行划分,直到节点划分能力低于真实度阈值[ε]停止模糊决策树的增长;第二阶段对该模糊决策树叶节点利用神经网络做具有泛化能力的分类。实验结果表明,相较于传统的分类学习算法,该算法准确率高,对识别大数据和复杂模式的分类问题能够通过结构自适应确定决策树规模。  相似文献   

4.
针对数据分类挖掘问题,利用并行思想,提出一种基于并行反向熵决策树算法的人工神经网络.通过概率度量水平生成并行决策树对数据进行粗处理,以加快人工神经网络的分析速度.随后采用一组仿真数据对该方法进行测试和评估.实验结果表明,该并行分类方法比单个决策树具有更高的分类精度,并在保持分类结果良好可解释性的基础上优化了分类规则.  相似文献   

5.
决策树算法是经典的分类挖掘算法之一,具有广泛的实际应用价值。经典的ID3决策树算法是内存驻留算法,只能处理小数据集,在面对海量数据集时显得无能为力。为此,对经典ID3决策树生成算法的可并行性进行了深入分析和研究,利用云计算的MapReduce编程技术,提出并实现面向海量数据的ID3决策树并行分类算法。实验结果表明该算法是有效可行的。  相似文献   

6.
在多红外火焰探测系统中,提出了一种基于决策树的火灾识别算法。按照特种火灾探测器的国家标准实验的要求,获取实验数据。该算法首先对五个红外火焰探测器获得的数据进行多窗口重叠交叉预处理,然后提取六个火灾特征作为决策树的分类属性,对决策树进行训练、剪枝,最后得到火灾识别的最优决策树模型。将该识别模型应用于在线火灾识别,实验结果表明该决策树分类算法的准确率可以达到95.2%,识别速度在2S以内,较其它的分类识别算法有更高的准确率和更快的识别速度,具有很好的实用性。  相似文献   

7.
在多红外火焰探测系统中,提出了一种基于决策树的火灾识别算法。按照特种火灾探测器的国家标准实验的要求,获取实验数据。该算法首先对五个红外火焰探测器获得的数据进行多窗口重叠交叉预处理,然后提取六个火灾特征作为决策树的分类属性,对决策树进行训练、剪枝,最后得到火灾识别的最优决策树模型。将该识别模型应用于在线火灾识别,实验结果表明该决策树分类算法的准确率可以达到95.2%,识别速度在2s以内,较其他的分类识别算法有更高的准确率和更快的识别速度,具有很好的实用性。  相似文献   

8.
不确定数据的决策树分类算法   总被引:5,自引:0,他引:5  
李芳  李一媛  王冲 《计算机应用》2009,29(11):3092-3095
经典决策树算法不能处理树构建和分类过程中的不确定数据。针对这一局限,将可用于不确定数据表达的证据理论与决策树分类算法相结合,把决策树分类技术扩展到含有不确定数据的环境中。为避免在决策树构建过程中出现组合爆炸问题,引入新的测量算子和聚集算子,提出了D-S证据理论决策树分类算法。实验结果表明,D-S证据理论决策树分类算法能有效地对不确定数据进行分类,有较好的分类准确度,并能有效避免组合爆炸。  相似文献   

9.
如何能从海量数据中以更快速、高效、低成本的方式挖掘出有价值的信息成为如今数据挖掘技术面临的新课题。文中在研究Hadoop平台的特征和决策树的C4.5算法的过程中,决定在决策树算法领域中引入云计算思维,实现其在Ha-doop平台上的并行化,并且采用MapReduce模型来解决海量数据挖掘问题。最后用打高尔夫球的数据集对新的算法进行验证。实验结果表明对海量数据,基于Hadoop平台的决策树算法可以明显提高数据挖掘的效率,具有可观的高效性和可扩展性,在一定程度上解决了C4.5算法在处理海量数据时计算量大、构建决策树时间长的问题。  相似文献   

10.
在对大型数据集的决策树生成方法进行探讨的基础之上,提出了一种基于属性关联近似正交表的决策树生成算法.该算法既能处理大型数据集,保留了基本划分组合算法的高效性,又能对提高决策树的精度具有一定的作用.  相似文献   

11.
食品是人们赖以生存和发展的基本物质基础,食品安全不仅仅关乎广大消费者的切身利益,甚至关系到国家经济的稳步发展和社会的繁荣昌盛。食品安全大数据具有数据容量大、来源多样、更新速度快、价值密度低却应用价值大的特点,通过将多源的食品安全大数据进行融合及分类并行处理可以帮助人们实现更多的价值。对食品安全大数据融合及分类技术进行了综述。首先,总结了食品安全大数据的来源特征以及数据处理关键技术,阐述了食品安全大数据预处理过程,分析了食品安全大数据融合三种融合层次以及融合关键技术,介绍了食品安全大数据的并行计算模式;然后,归纳了并行分类算法以及几种常见的分类算法,如朴素贝叶斯、决策树、神经网络等;最后,对食品安全大数据做出总结和展望。  相似文献   

12.
决策树是数据挖掘技术中一种常用的分类方法,易于理解,应用范围广泛。随着对决策树算法的持续深入地研究,以及对应用中发现的问题加以解决和不断改进,提高了决策树的分类速度、精度和实用性,并形成了多种独特的算法。该文以某商业银行信用卡消费为例对决策树及常用算法进行了详细解析,以期在今后使用或改进算法时能提供有益的帮助。  相似文献   

13.
针对当前决策树算法没考虑规则生成时效的情况,提出了一种从目标函数出发,快速生成规则的逆向决策树算法,以提高决策树算法实时生成规则的能力.该算法采用了一种新的分类性能度量标准,该标准主要考虑不同属性对应的样本分布偏置的快慢.实验部分设计了一个随机规则和样本的生成器.实验结果表明逆向决策树算法拥有比ID3算法更好的时间性能和相当的规则生成能力.该归纳推理算法尤其适用于工业生产、系统调度等对系统实时性要求较高的社会经济与信息化领域.  相似文献   

14.
基于SQL Server 2000下数据挖掘算法的研究   总被引:1,自引:0,他引:1  
微软的SQL Server2000是当今最流行的数据库管理软件之一,研究了在SQL Server 2000上数据挖掘实现方面的决策树算法.决策树算法通过构造精度高、小规模的决策树采掘训练集中的分类知识.SQL Server 2000/Analysis Service两层结构决策树,采用了以类记数表及深度优先策略生成,在建树算法和数据库间设立数据挖掘中间件.并讨论了通过使用像SQL Server 2000 Analysis Service这样的典型工具来如何实现数据挖掘模型的创建,且为商业组织的决定挖掘出必要的数据.  相似文献   

15.
决策树是数据挖掘技术中一种常用的分类方法,易于理解,应用范围广泛。随着对决策树算法的持续深入地研究,以及对应用中发现的问题加以解决和不断改进,提高了决策树的分类速度、精度和实用性,并形成了多种独特的算法。该文以某商业银行信用卡消费为例对决策树及常用算法进行了详细解析,以期在今后使用或改进算法时能提供有益的帮助。  相似文献   

16.
We propose a method for hierarchical clustering based on the decision tree approach. As in the case of supervised decision tree, the unsupervised decision tree is interpretable in terms of rules, i.e., each leaf node represents a cluster, and the path from the root node to a leaf node represents a rule. The branching decision at each node of the tree is made based on the clustering tendency of the data available at the node. We present four different measures for selecting the most appropriate attribute to be used for splitting the data at every branching node (or decision node), and two different algorithms for splitting the data at each decision node. We provide a theoretical basis for the approach and demonstrate the capability of the unsupervised decision tree for segmenting various data sets. We also compare the performance of the unsupervised decision tree with that of the supervised one.  相似文献   

17.
一种以相关性确定条件属性的决策树   总被引:5,自引:1,他引:5  
韩家新  王家华 《微机发展》2003,13(5):38-39,42
决策树是数据挖掘中的一种重要的分类器。文章在介绍了一些典型的决策树分类算法的基础上,研究了一种相关性度量的决策树分类器。其主要思想是在建立决策树过程中采用属性相关性度量来确定划分条件属性的顺序,通过阈值设定和处理简化了决策树的剪枝和优化过程,避免了使用信息熵带来的不当划分,详细描述了算法的执行过程以及正确性证明和时间复杂性分析。  相似文献   

18.
决策树分类法及其在土地覆盖分类中的应用   总被引:24,自引:1,他引:24  
基于决策树分类算法在遥感影像分类方面的深厚潜力,探讨了3种不同的决策树算法(UDT、MDT和HDT)。首先对决策树算法结构、算法理论进行了阐述,然后利用决策树算法进行遥感土地覆盖分类实验,并把获得的结果与传统统计分类法进行比较。研究表明,决策树分类法有诸多优势,如:相对简单、明确、分类结构直观,另外,与以假定数据源呈一固定概率分布,然后在此基础上进行参数估计的常规分类方法相比,决策树属于严格“非参”,对于输入数据空间特征和分类标识具有更好的弹性和鲁棒性(Robust)。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号