首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
决策树的优化算法   总被引:78,自引:1,他引:78  
刘小虎  李生 《软件学报》1998,9(10):797-800
决策树的优化是决策树学习算法中十分重要的分支.以ID3为基础,提出了改进的优化算法.每当选择一个新的属性时,算法不是仅仅考虑该属性带来的信息增益,而是考虑到选择该属性后继续选择的属性带来的信息增益,即同时考虑树的两层结点.提出的改进算法的时间复杂性与ID3相同,对于逻辑表达式的归纳,改进算法明显优于ID3.  相似文献   

2.
基于粗糙集的决策树算法由于粒化冲突与噪声影响容易导致特征选择的失效。提出属性纯度并结合属性依赖度来构建决策树归纳算法。采用统计集成策略来建立属性纯度,表示决策分类关于条件分类的识别性,并用于相应的属性特征选择;分析属性纯度与属性依赖度的同质性和异态性,采用先属性依赖度后属性纯度选择节点的方法,改进基于粗糙集的决策树算法。决策表例分析与数据实验对比均表明所提算法的有效性与改进性。  相似文献   

3.
房立  黄泽宇 《微机发展》2006,16(8):106-109
构建决策树分类器关键是选择分裂属性。通过分析信息增益和增益比率、Gini索引、基于Goodman-Kruskal关联索引这三种选择分裂属性的标准,提出了一种改进经典决策树分类器C4.5算法的方法(竞争选择分裂属性的决策树分类模型),它综合三种选择分裂属性的标准,通过竞争机制选择最佳分裂属性。实验结果表明它在大多数情况下,使得不牺牲分类精确度而获得更小的决策树成为了可能。  相似文献   

4.
为了提高图像分类性能,本文提出一种多模型特征和注意力模块融合的图像分类算法(image classification algorithm based on Multi-model Feature and Reduced Attention fusion,MFRA).通过多模型特征融合,使网络学习输入图像不同层次的特征,增加特征互补性,提高特征提取能力;通过加入注意力模块,使网络更关注有目标的区域,降低无关的背景干扰信息.本文算法在Cifar-10,Cifar-100,Caltech-101这3个公开数据集上的大量实验对比,验证了其有效性.与现有算法对比,本文算法的分类性能有较为明显的提升.  相似文献   

5.
Instance transfer for classification aims at boosting generalization performance of classification models for a target domain by exploiting data from a relevant source domain. Most of the instance-transfer approaches assume that the source data is relevant to the target data for the complete set of features used to represent the data. This assumption fails if the target data and source data are relevant only for strict subsets of the input features which we call “partially input-feature relevant”. In this case these approaches may result in sub-optimal classification models or even in a negative transfer. This paper proposes a new decision-tree approach to instance transfer when the source data are partially input-feature relevant to the target data. The approach selects input features for tree nodes using univariate transfer of source instances. The instance transfer is guided by a conformal test for source relevance estimation. Experimental results on real-world data sets demonstrate that the new decision-tree approach is capable of outperforming existing instance-transfer approaches, especially, when the source data are partially input-feature relevant to the target data.  相似文献   

6.
针对网络异常流量检测问题,文章提出一种基于网络流量特征属性信息熵的异常流量检测方法。该方法首先计算描述网络流量特征变化的源端口号、目的端口号、源IP地址和目的IP地址这4种特征属性信息熵,并进行归一化处理,降低异常样本数据对分类性能的影响;然后利用自适应遗传算法对支持向量机分类器的惩罚参数和核函数参数进行优化,提高分类器泛化能力,同时改进遗传算法的交叉算子和变异算子,减少支持向量机分类器的训练时间;最后通过训练好的支持向量机分类器识别4种流量特征属性信息熵的变化以实现网络异常流量检测。仿真实验表明,该方法提取的4种流量特征属性信息熵能够有效表征异常流量变化,在多种异常流量类型条件下,具有较高的异常流量识别率和较低的误判率,且检测方法的鲁棒性较好。  相似文献   

7.
樊玮  王慧敏  邢艳 《计算机应用》2021,41(4):1064-1070
现有的大多数网络表示学习方法很难兼顾网络中丰富的结构信息和属性信息,导致其后续任务,如分类、聚类等的效果不佳。针对此问题,提出一种基于自编码器的多视图属性网络表示学习模型(AE-MVANR)。首先,将网络的拓扑结构信息转化为拓扑结构视图(TSV),通过计算节点间相同属性共现频率来构造属性结构视图(ASV);然后,在两个视图上分别利用随机游走算法得到若干节点序列;最后,经过自编码器训练得到的序列,从而得到融合了结构信息和属性信息的节点表示向量。在几个真实数据集上进行了分类、聚类任务的大量实验,结果表明,所提AE-MVANR优于常用的仅基于网络结构的和同时基于网络结构信息及节点属性信息的网络表示学习方法,具体来说该模型的分类准确率最高提升43.75%,而其聚类结果的标准化互信息(NMI)和轮廓系数(Silhouette Coefficient)指标最高增幅分别为137.95%和1 314.63%,戴维森堡丁指数(DBI)最大降幅达45.99%。  相似文献   

8.
为了提高Stacking集成算法的分类性能,充分利用Stacking学习机制产生的先验信息和贝叶斯网络丰富的概率表达能力,提出一种基于属性值加权朴素贝叶斯算法的Stacking集成分类算法AVWNB-Stacking(Stacking based Attribute Value Weight Naive Bayes)。通过考虑属性值这个深层次的因素,以互信息(Mutual Information,MI)作为权值度量的基础,对属性权值向量横向扩展为每个属性值分配一个权值,避免不同的属性值共享相同的权值,从而解决朴素贝叶斯算法作为Stacking元分类器由于属性独立性假设带来的分类精度损失。实验结果表明,相比于传统算法及其他元分类器的Stacking分类算法,AVWNB-Stacking算法有效提高了模型的分类性能,在两个测试集上AUC值分别达到了0.8007和0.8607。  相似文献   

9.
属性约简是信息系统中的一个重要操作,而分类是属性约简的基础,且直接在大数据集上进行属性约简往往存在效率低下的问题。故以分类为基础提出了一种基于信息熵的信息系统并行属性约简算法。该算法通过信息熵的计算,在属性约简的同时对原信息系统逐层分解成尽量均匀的子表,从而实现了属性约简的并行计算并缩小了搜索空间。对该算法的时间复杂度进行了分析,实验表明,该算法在效率方面优于传统算法。  相似文献   

10.
优势信息系统中的启发式属性约简算法   总被引:1,自引:0,他引:1       下载免费PDF全文
在优势信息系统中引入粒度熵概念,定义其相关的性质和定理,并以优势关系下的粒度熵为启发式信息,给出属性的重要性度量。在此基础上提出一种基于粒度熵的启发式属性约简算法,并分析该算法的时间复杂度。通过实例说明该算法的有效性,为进一步研究优势目标信息系统的规则提取提供理论基础。  相似文献   

11.
针对彩铃业务交易记录较多和客户属性的高维度及混合性的特点,建立了基于信息熵度量的模糊粗集属性约简和RBF-SVM分类的彩铃客户挖掘模型。通过10 折交叉验证,对来自两个地市的营销返回样本,在选择特征数量和分类精度之间的差别与其他5个模型进行了比较分析。实验结果显示此模型获取了相对最高的平均分类精度(80.43%)和最少的平均特征属性(2.5个),有效地约简了属性并改善了分类能力。  相似文献   

12.
基于近似决策熵的属性约简   总被引:3,自引:0,他引:3  
粗糙集理论已被证明是一种有效的属性约简方法. 目前有许多启发式属性约简算法已被提出, 其中基于信息熵的属性约简算法受到了广泛的关注. 为此, 针对现有的基于信息熵的属性约简算法问题, 定义一种新的信息熵模型—–近似决策熵, 并提出一种基于近似决策熵的属性约简(ADEAR) 算法. 通过在多个UCI 数据集上的实验表明, 与现有算法相比, ADEAR算法能够获得较小的约简和较高的分类精度, 具有相对较低的计算开销.  相似文献   

13.
汪琼枝  郑文曦  王道然 《计算机科学》2016,43(Z6):81-82, 102
属性约简是Rough集理论的重要研究内容,基于信息熵的属性约简是一种有效的属性约简方法。在实际应用中,获取的信息系统通常是不完备的。针对这种问题,在容差关系下对个体进行分类时,基于属性子集redu与CAttr(属性全集)-redu之间的内在联系,定义了一种新的知识熵,提出了一种新的应用近似模糊熵的不完备信息系统属性约简算法(newS算法),其时间复杂度是O(|C|2∑mi=1(kpi)2)。最后,在ROSE和UCI data中的6个数据集上进行了实验仿真,结果表明newS算法是可行的,并且在同等约简效果下与其他算法相比具有更高的属性约简效率。  相似文献   

14.
现有的三维点云模型分类方法未考虑模型本身的空间结构信息,忽略了模型上点与点之间的相互关系.为此,提出一种能够提取模型空间结构信息的转换网络,实现三维点云模型的分类.首先对三维模型采样分组,得到其球形邻域,计算每个邻域内点的浅层特征,同时使用转换网络将邻域的空间结构信息转换为特征权重,并通过特征映射将特征权重和浅层特征输出为具有该邻域空间结构信息的高维特征.然后聚合各个邻域的高维特征得到模型的全局特征,并通过多个尺度逐层迭代输出分类结果.实验结果表明,在ModelNet40上的分类准确率达到92.8%,高于目前的主流算法.  相似文献   

15.
针对现有网络流量异常检测方法准确率较低的问题,提出基于决策树的网络流量异常分析与检测方法。研究网络流量结构特征及流量异常的交叉熵表示方法。采用C4.5算法建立决策树模型,将具有连续性的属性值离散化,根据最大信息增益比逐层选取分类属性,依此规则对流量数据进行分类。实验结果表明,当该方法的检测准确率达90%以上时,误报率可控制在5%以内,与同类方法相比能更准确地发现网络流量异常并进行分类。  相似文献   

16.
《Information Fusion》2002,3(4):259-266
We provide several enhancements to our previously introduced algorithm for a sequential construction of a hybrid network of radial and perceptron hidden units [6]. At each stage, the algorithm sub-divides the input space in order to reduce the entropy of the data conditioned on the clusters. The algorithm determines if a radial or a perceptron unit is required at a given region of input space, by using the local likelihood of the model under each unit type. Given an error target, the algorithm also determines the number of hidden units. This results in a final architecture which is often much smaller than an radial basis functions network or an multi-layer perceptron. A benchmark on six classification problems is given. The most striking performance improvement is achieved on the vowel data set [8].  相似文献   

17.
由于网络混合属性集的冗余数据量多,影响数据检测的查全率,为此提出结合粗糙集理论的网络大数据混合属性特征检测方法。首先构建一个四元组,利用四元组的任意邻域信息测算其长度函数,以判断信息特征的相似性,结合粗糙集理论求解相似信息特征的邻域熵,以检测并分类重复数据属性。为优化数据分类效率,引入支持向量机分类思想,将大数据混合属性的分类问题变换为线性可分问题,实现网络大数据混合属性特征检测与分类。实验结果表明,所提方法能够有效根据数据特征筛选出无关数据信息,使用经过训练后的分类装置对约简后的特征集进行分类,与基于特征和分类器参数组合优化的网络属性特征检测方法比较,证明了所提方法的有效性,为网络大数据混合特征检测技术提供一种新的有效解决方式。  相似文献   

18.
一种基于新的条件信息熵的高效知识约简算法   总被引:15,自引:1,他引:15  
分析了在知识约简过程中现有条件信息熵的不足,给出一种新的条件信息熵,由此定义新的属性重要性.将其与基于正区域和基于现有条件信息熵的属性重要性进行比较,结果表明新的属性重要性是一种更准确、更全面的启发信息.以新的属性重要性为启发信息设计约简算法,并给出计算新的条件信息熵的高效算法.理论分析和实验结果表明,与基于现有条件信息熵的约简算法相比,该约简算法时间复杂度较低,且在搜索最小或次优约简方面更优.  相似文献   

19.
为融合节点描述信息提升网络表示学习质量,针对社会网络中节点描述属性信息存在的语义信息分散和不完备性问题,提出一种融合节点描述属性的网络表示(NPA-NRL)学习算法。首先,对属性信息进行独热编码,并引入随机扰动的数据集增强策略解决属性信息不完备问题;然后,将属性编码和结构编码拼接作为深度神经网络输入,实现两方面信息的相互补充制约;最后,设计了基于网络同质性的属性相似性度量函数和基于SkipGram模型的结构相似性度量函数,通过联合训练实现融合语义信息挖掘。在GPLUS、OKLAHOMA和UNC三个真实网络数据集上的实验结果表明,和经典的DeepWalk、TADW(Text-Associated DeepWalk)、UPP-SNE(User Profile Preserving Social Network Embedding)和SNE(Social Network Embedding)算法相比,NPA-NRL算法的链路预测AUC(Area Under Curve of ROC)值平均提升2.75%,节点分类F1值平均提升7.10%。  相似文献   

20.
粗糙集和信息熵的属性约简算法及其应用   总被引:2,自引:0,他引:2       下载免费PDF全文
吴尚智  苟平章 《计算机工程》2011,37(7):56-58,61
阐述粗糙集理论和信息熵的基本概念,并为寻找属性约简的有效方法,提出一种基于粗糙集和信息熵的属性约简算法。在决策表中添加某个属性引起的互信息变化的大小,以反映该属性的重要性,并求相对约简。研究表明,该算法不仅能得到最优的决策规则,而且能够减少信息系统所需的搜索空间,得到更优的属性约简效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号