首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
决策树分类方法是解决数据挖掘、模式识别中分类任务的有效方法,然而,在大规模的数据集上运行时,其运行效率受到严重影响。文中选取决策树的代表算法C4.5算法为研究对象,利用算法固有的并行性对其进行优化研究。文中利用MATLAB实现串行的C4.5决策树,并对构成该决策树的子函数进行运行时间分析,从而确定信息增益率计算的复杂性为限制算法速度的关键因素。针对此计算瓶颈,结合决策树算法在子节点分割以及最优分裂属性选择等方面的并行性,纵向划分数据,构建了并行的C4.5决策树,并利用MATLAB并行计算池功能以及SPMD设计实现。对并行后决策树运行时间验证结果表明,将C4.5决策树并行化后,并行决策树的构建时间显著缩短,实现了算法的加速。  相似文献   

2.
基于粒计算的决策树并行算法的应用   总被引:1,自引:0,他引:1  
针对传统的决策树分类算法不能有效解决海量数据挖掘的问题,结合并行处理模型M apReduce ,研究基于粒计算的ID3决策树分类的并行化处理方法。基于信息粒的二进制表示来构建属性的二进制信息粒向量,给出数据集的二进制信息粒关联矩阵表示;基于二进制信息粒关联矩阵,提出属性的信息增益的计算方法,设计基于M apReduce的粒计算决策树并行分类算法。通过使用标准数据集和实际气象领域的雷电真实数据集进行测试,验证了该算法的有效性。  相似文献   

3.
决策树算法是经典的分类挖掘算法之一,具有广泛的实际应用价值。经典的ID3决策树算法是内存驻留算法,只能处理小数据集,在面对海量数据集时显得无能为力。为此,对经典ID3决策树生成算法的可并行性进行了深入分析和研究,利用云计算的MapReduce编程技术,提出并实现面向海量数据的ID3决策树并行分类算法。实验结果表明该算法是有效可行的。  相似文献   

4.
决策树在信息检索中的性能研究   总被引:1,自引:0,他引:1  
王倩 《微计算机信息》2008,24(3):207-208
决策树算法是分类发现中最常见的一种方法.它主要是通过构造决策树来发现数据蕴含的分类规则.如何构造精度高、规模小的决策树是决策树算法的核心内容.本文主要是通过实验,分别对基于决策树和基于决策树提取规则的深度优先和广度优先的方法进行文本分类的实验,对其性能进行研究比较.  相似文献   

5.
通过研究各种决策树分类算法的并行方案后,并行设计C4.5算法.同时根据Hadoop云平台的MapReduce编程模型,详细描述C4.5并行算法在MapReduce编程模型下的实现及其执行流程.最后,对输入的海量文本数据进行分类,验证了算法的高效性和扩展性.  相似文献   

6.
针对传统决策树分类算法需要依靠人工构造特征才能实现对数据进行分类的问题, 以及其在处理海量天文数据时所面临的处理速度和资源分配瓶颈问题,结合深度学习强大的特征学习能力和Spark高效的数据处理性能,提出了一种基于Spark平台的深度感知决策树并行化算法,并将其应用于天文恒星/星系分类问题中。研究结果表明,该算法具有很好的可伸缩性,可以通过增加Spark集群计算节点的数量,来减少分类模型所需的训练时间和增强其对海量天文数据的处理能力。并且,其因同时具备强大的特征学习和分类能力而在恒星星系分类问题上可以获得比传统决策树更高的分类准确率。  相似文献   

7.
代价敏感决策树是以最小化误分类代价和测试代价为目标的一种决策树.目前,随着数据量急剧增长,劣质数据的出现也愈发频繁.在建立代价敏感决策树时,训练数据集中的劣质数据会对分裂属性的选择和决策树结点的划分造成一定的影响.因此在进行分类任务前,需要提前对数据进行劣质数据清洗.然而在实际应用中,由于数据清洗工作所需要的时间和金钱代价往往很高,许多用户给出了自己可接受的数据清洗代价最大值,并要求将数据清洗的代价控制在这一阈值内.因此除了误分类代价和测试代价以外,劣质数据的清洗代价也是代价敏感决策树建立过程中的一个重要因素.然而,现有代价敏感决策树建立的相关研究没有考虑数据质量问题.为了弥补这一空缺,着眼于研究劣质数据上代价敏感决策树的建立问题.针对该问题,提出了3种融合数据清洗算法的代价敏感决策树建立方法,并通过实验证明了所提出方法的有效性.  相似文献   

8.
基于Shamir秘密共享的隐私保护分类算法   总被引:1,自引:0,他引:1  
为了在分布式环境下进行数据分类挖掘,使每部分的隐私得到保护,根据Shamir秘密共享思想,提出了一种基于分布式环境下的决策树分类算法.在对集中数据库决策树分类属性的最大的信息增益公式分析的基础上,推导了分布式数据库的同一分类属性的息增益公式.在此基础上对Shamir秘密共享的加密原理进行分析,将其应用到求分布式数据库决策树分类属性的最大的信息增益公式中,并对隐私保护值求和的过程进行了实例分析.实验结果表明,该方法能有效地对分布式同构样本数据集进行隐私保护的决策树分类挖掘.  相似文献   

9.
一种两阶段决策树建树方法及其应用   总被引:2,自引:0,他引:2  
提出一种新颖的两阶段决策树建树方法;在对数据集进行较粗的分类后,通过遗传算法寻找规则集来建立决策树叶子节点.该方法可以同时对多个属性进行度量,并避免了决策树的剪枝过程。  相似文献   

10.
针对高海拔复杂地形区地貌类型复杂、多样,沟壑纵横、地形破碎等特点,研究快速、有效的土地利用/土地覆被分类方法对土地利用信息获取及更新是非常重要的。以位于黄土高原向青藏高原过渡带的湟水流域为研究区域,基于Landsat 8 OLI影像数据、DEM数据,并结合各种专题特征,在对研究区进行地理分区的基础上,采用人工神经网络、决策树、支持向量机和随机森林4种机器学习方法进行土地利用信息提取并进行精度评价,探索适合于复杂地形区最优的分类方法。研究结果表明:随机森林和决策树的分类精度明显高于支持向量机和人工神经网络。其中随机森林方法的分类精度最高,总体分类精度达85.65%,Kappa系数达0.84。在上述分类基础上,选择随机森林分类方法对Landsat 8全色与多光谱影像融合数据进行进一步的分类研究,总体分类精度达到86.49%,Kappa系数达0.85。这表明随机森林分类方法在保证分类精度的同时又能获得较高的分类效率,对于复杂地形区土地利用信息提取是非常有效的,数据融合在一定程度上提高了分类精度。  相似文献   

11.
基于混沌神经网络的分类算法   总被引:1,自引:0,他引:1  
张建宏 《计算机科学》2010,37(8):251-252261
提出了一种基于混沌神经网络的分类算法,利用改进的进化策略对多个三层前馈混沌神经网络同时进行训练.训练好各个分类模型以后,将待识别数据分别输入,混沌神经网络分类模型输出最终分类结果.实验结果表明,该算法可以较好地进行数据分类,而且与传统的神经网络算法以及决策树算法相比,在分类精度和识别率方面均有一定的改善,体现出较好的稳定性.  相似文献   

12.
一种基于多进化神经网络的分类方法   总被引:9,自引:0,他引:9  
商琳  王金根  姚望舒  陈世福 《软件学报》2005,16(9):1577-1583
分类问题是目前数据挖掘和机器学习领域的重要内容.提出了一种基于多进化神经网络的分类方法CABEN(classification approach based on evolutionary neural networks).利用改进的进化策略和Levenberg-Marquardt方法对多个三层前馈神经网络同时进行训练.训练好各个分类模型以后,将待识别数据分别输入,最后根据绝对多数投票法决定最终分类结果.实验结果表明,该方法可以较好地进行数据分类,而且与传统的神经网络方法以及贝叶斯方法和决策树方法相比,在  相似文献   

13.
Extracting decision trees from trained neural networks   总被引:4,自引:0,他引:4  
In this paper we present a methodology for extracting decision trees from input data generated from trained neural networks instead of doing it directly from the data. A genetic algorithm is used to query the trained network and extract prototypes. A prototype selection mechanism is then used to select a subset of the prototypes. Finally, a standard induction method like ID3 or C5.0 is used to extract the decision tree. The extracted decision trees can be used to understand the working of the neural network besides performing classification. This method is able to extract different decision trees of high accuracy and comprehensibility from the trained neural network.  相似文献   

14.
Parallel Formulations of Decision-Tree Classification Algorithms   总被引:5,自引:0,他引:5  
Classification decision tree algorithms are used extensively for data mining in many domains such as retail target marketing, fraud detection, etc. Highly parallel algorithms for constructing classification decision trees are desirable for dealing with large data sets in reasonable amount of time. Algorithms for building classification decision trees have a natural concurrency, but are difficult to parallelize due to the inherent dynamic nature of the computation. In this paper, we present parallel formulations of classification decision tree learning algorithm based on induction. We describe two basic parallel formulations. One is based on Synchronous Tree Construction Approach and the other is based on Partitioned Tree Construction Approach. We discuss the advantages and disadvantages of using these methods and propose a hybrid method that employs the good features of these methods. We also provide the analysis of the cost of computation and communication of the proposed hybrid method. Moreover, experimental results on an IBM SP-2 demonstrate excellent speedups and scalability.  相似文献   

15.
基于神经网络的分类决策树构造   总被引:5,自引:2,他引:3  
目前基于符号处理的方法是解决分类规则提取问题的主要方法,而基于神经网络的连接主义方法则用的不多,其主要原因在于虽然神经网络的分类精度高,但难于提取其所隐含的分类规则与知识.针对这个问题,结合神经网络的具体特点,该文提出了一种基于神经网络的构造分类决策树的新方法.该方法通过神经网络训练建立各属性与分类结果之间的关系,进而通过提取各属性与分类结果之间的导数关系来建立分类决策树.给出了具体的决策树构造算法.同时为了提高神经网络所隐含关系的提取效果,提出了关系强化约束的概念并建立了具体的模型.实际应用结果证明了算法的有效性.  相似文献   

16.
In this paper, we propose a new feature extraction method for feedforward neural networks. The method is based on the recently published decision boundary feature extraction algorithm which is based on the fact that all the necessary features for classification can be extracted from the decision boundary. The decision boundary feature extraction algorithm can take advantage of characteristics of neural networks which can solve complex problems with arbitrary decision boundaries without assuming underlying probability distribution functions of the data. To apply the decision boundary feature extraction method, we first give a specific definition for the decision boundary in a neural network. Then, we propose a procedure for extracting all the necessary features for classification from the decision boundary. Experiments show promising results.  相似文献   

17.
刘颖  李旭  吕政  赵珺  王伟 《控制与决策》2024,39(7):2315-2324
时间序列数据广泛存在于工业、医疗等应用领域,由于其时序相关性强、特征空间维度大,使得传统的时间序列分类方法普遍存在精度不足和需要复杂特征工程等问题.充分考虑深度神经网络在处理复杂时序数据上的优越性以及决策树方法拟合数据能力强的优势,提出一种基于残差网络和概率决策树的端到端统一深度学习模型.该模型利用残差网络从原始时间序列中提取高级特征,为了更好地建立时序数据特征与类别标签间的映射关系,将概率决策树融入至残差网络的分类层.同时,设计随机子空间的集成策略,缓解由于残差网络的深层结构产生的过度拟合现象,并给出联合优化模型分裂参数和预测参数的迭代优化方案.在大量的基准数据集和工业案例上进行实验和分析,实验结果表明,所提出模型的分类性能优于传统方法与其他深度学习方法,且可有效提高残差网络的泛化能力.  相似文献   

18.
Basak J 《Neural computation》2004,16(9):1959-1981
Decision trees and neural networks are widely used tools for pattern classification. Decision trees provide highly localized representation, whereas neural networks provide a distributed but compact representation of the decision space. Decision trees cannot be induced in the online mode, and they are not adaptive to changing environment, whereas neural networks are inherently capable of online learning and adpativity. Here we provide a classification scheme called online adaptive decision trees (OADT), which is a tree-structured network like the decision trees and capable of online learning like neural networks. A new objective measure is derived for supervised learning with OADT. Experimental results validate the effectiveness of the proposed classification scheme. Also, with certain real-life data sets, we find that OADT performs better than two widely used models: the hierarchical mixture of experts and multilayer perceptron.  相似文献   

19.
粗糙集理论框架下的神经网络建模研究及应用   总被引:8,自引:1,他引:7  
为协调决策支持和分类,引入了一种新的方法,该方法将粗糙集理论和神经网络有机地结合在一起,提出了一种基于粗糙集理论的神经网络模型构造方法.首先,利用粗糙集理论智能数据分析的能力,对神经网络进行预处理,抽取关键成分作为神经网络的输入,从而确定粗糙神经网络的初始拓扑结构.在此基础上,进一步研究和分析了该模型的实现步骤,并应用原始数据对网络进行训练,最后将该模型应用于分类规则的抽取.试验结果比较表明,该模型可以有效地提高分类的精度.  相似文献   

20.
随着大数据时代的到来,数据信息呈几何倍数增长。传统的分类算法将面临着极大的挑战。为了提高分类算法的效率,提出了一种基于弱相关化特征子空间选择的离散化随机森林并行分类算法。该算法在数据预处理阶段对数据集中的连续属性进行离散化。在随机森林抽取特征子空间阶段,利用属性向量空间模型计算属性间的相关性,构造弱相关化特征子空间,使所构建的决策树之间相关性降低,从而提高随机森林的分类效果;并通过研究随机森林的并行化策略,结合MapReduce框架,改进并实现了随机森林模型构建过程的双重并行化,进一步改善了算法的计算效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号