首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
决策树ID3算法的改进   总被引:3,自引:0,他引:3  
本文根据ID3算法中信息增益计算原理的特点,利用数学上等价无穷小的性质提出一种新的改进的ID3算法,减少了信息增益的计算量,进而提高ID3算法中信息增益的计算效率。与原ID3算法相比,改进的ID3算法在构造决策树时具有相同的准确率和更高的计算速度。  相似文献   

2.
一种健壮有效的决策树改进模型   总被引:2,自引:0,他引:2  
提出了一种健壮有效的决策树改进模型AJD3.该决策树模型基于经典的ID3决策树模型,在属性的选取上进行了改进.利用引入属性优先关联度参数计算节点的修正信息增益,并选择具有最高修正增益的属性作为当前节点的测试属性.实验表明,AID3决策树模型在提高分类准确率的同时,有效地增强了模型的健壮性.  相似文献   

3.
短文本信息流在传递公开信息时携带了丰富且具有极大价值的信息资源。根据短文本信息流特点,利用训练数据集中的信息熵来构建决策树检测模型进行热点话题检测,该方法先是计算出各话题类别的平均信息量和每个特征词对于短文本信息流进行划分的信息增益率,再通过选择具有最大信息增益率的特征词进行测试,完 成自上而下的决策树建树过程,最后利用叶子结点的类型确定热点话题。在真实短信文本信息流上实验表明,该方法具有明显的检测稳定性和较高的数据处理效率。  相似文献   

4.
特定信息增益决策森林分类器研究   总被引:2,自引:1,他引:1       下载免费PDF全文
传统的决策树是利用决策属性的信息增益来进行建模的,而有时决策属性的信息增益是根据属性的不同取值而动态变化的。改进了决策树算法,考虑了决策属性取值不同产生的信息增益的差别。根据决策属性的不同取值创建了基于特定信息增益的决策森林分类模型。实验结果表明虽然决策森林模型的建模过程比决策树复杂,但是具有比较高的分类精度。  相似文献   

5.
决策树分类方法是解决数据挖掘、模式识别中分类任务的有效方法,然而,在大规模的数据集上运行时,其运行效率受到严重影响。文中选取决策树的代表算法C4.5算法为研究对象,利用算法固有的并行性对其进行优化研究。文中利用MATLAB实现串行的C4.5决策树,并对构成该决策树的子函数进行运行时间分析,从而确定信息增益率计算的复杂性为限制算法速度的关键因素。针对此计算瓶颈,结合决策树算法在子节点分割以及最优分裂属性选择等方面的并行性,纵向划分数据,构建了并行的C4.5决策树,并利用MATLAB并行计算池功能以及SPMD设计实现。对并行后决策树运行时间验证结果表明,将C4.5决策树并行化后,并行决策树的构建时间显著缩短,实现了算法的加速。  相似文献   

6.
为优化针对非均衡数据的分类效果,结合犹豫模糊集理论与决策树算法,提出一种改进的模糊决策树算法。通过SMOTE算法对非均衡数据进行过采样处理,使用K-means聚类方法获得各属性的聚类中心点,利用2种不同的隶属度函数对数据集进行模糊化处理。在此基础上,根据隶属度函数和犹豫模糊集的信息能量求得各属性的犹豫模糊信息增益,选取最大值替代Fuzzy ID3算法中的模糊信息增益作为属性的分裂准则,构建一个用于非均衡数据分类的犹豫模糊决策树模型。实验结果表明,基于犹豫模糊决策树的分类器在AUC评价指标上相对于C4.5、KNN、随机森林等传统分类算法平均提高了12.6%。  相似文献   

7.
决策树是对未知数据进行分类预测的一种方法。本文阐述熵理论和典型的ID3算法,并举例构建决策树。讨论选择具有最高信息增益的属性构建决策树,即选定具有最高区分度的属性作为当前节点。利用熵理论构建决策树,方法简单,结构清晰,容易转换成分类规则,并且不需要先验领域知识。  相似文献   

8.
针对石化生产过程中原油脱盐效率降低的现状,首次提出了运用决策树方法来提高电脱盐的效果.介绍了C4.5决策树算法的思想及实现流程,并详细阐述了信息增益的概念及计算方法,在此基础上对电脱盐数据进行了预处理,建立了决策树模型,然后利用数据挖掘的分类功能提取出分类规则,找到了影响电脱盐效果的主要因素并提出了提高电脱盐效果的方案.实验结果表明了该方法的有效性.  相似文献   

9.
基于信息增益比的决策树用于毕业生就业预测   总被引:1,自引:0,他引:1  
程昌品  陈强 《计算机仿真》2010,27(2):299-302
关于毕业生就业的预测研究,对毕业生就业及学校招生与教育教学管理工作具有指导作用。针对目前毕业生就业预测存在的不可靠性,提出了一种基于信息增益比的决策树应用于毕业生就业预测分析的方法,通过计算样本空间的信息熵和测试属性的期望信息熵以求得测试属性的信息增益比,从而构造出基于信息增益比的决策树,据此能够准确预测毕业生的就业情况。以广东教育学院的毕业生就业情况为例进行预测,实验结果表明所用方法的有效性和可靠性。  相似文献   

10.
基于粒计算的决策树并行算法的应用   总被引:1,自引:0,他引:1  
针对传统的决策树分类算法不能有效解决海量数据挖掘的问题,结合并行处理模型M apReduce ,研究基于粒计算的ID3决策树分类的并行化处理方法。基于信息粒的二进制表示来构建属性的二进制信息粒向量,给出数据集的二进制信息粒关联矩阵表示;基于二进制信息粒关联矩阵,提出属性的信息增益的计算方法,设计基于M apReduce的粒计算决策树并行分类算法。通过使用标准数据集和实际气象领域的雷电真实数据集进行测试,验证了该算法的有效性。  相似文献   

11.
基于信息熵的集群目标威胁度评估模型   总被引:1,自引:1,他引:0  
为了对弹炮结合防空武器系统集群防御的火力分配提供合理的决策建议,研究了集群防御目标威胁度评估的信息熵模型.在详细分析集群目标特性的基础上,选取了集群目标威胁度的评估指标体系,并对各指标定义进行了详细的说明,然后给定了评估指标威胁度的赋值规则,在此基础上基于信息熵理论建立了集群目标威胁评估的算法规则和模型.最后通过实例仿真表明了模型的有效性和合理性.该模型和算法可以为弹炮结合防空武器系统集群防御的火力分配提供有效的支撑作用.  相似文献   

12.
Technological advancement of measurement systems has enhanced the accuracy of power quality assessment by using a combination of measured information. This paper proposes a novel approach for estimating power quality based on information fusion technique of Dempster-Shafer(D-S) evidence theory. First, in order to accurately extract transient features regarding power quality indexes, wavelet packet transform and lifting wavelet transform are proposed to detect various disturbance signals measurement. By using many kinds of transformed transient indexes and steady state indexes, a novel reliability distribution function is constructed,and synthesized assessment index of power quality is drafted based on information fusion technique of D-S evidence theory. Finally,the simulation results prove that D-S evidence theory is a more effective means for evaluating the power quality.  相似文献   

13.
一个新的信息系统敏捷性度量模型   总被引:1,自引:0,他引:1       下载免费PDF全文
针对信息系统的敏捷性难以客观量化的问题,基于模糊综合评价法建立了信息系统敏捷性度量模型。此模型面向企业敏捷性,指标的提炼比较深入和全面,具有实用性和可操作性;由于各敏捷性度量指标的边界不清晰,给评分带来一定难度,采用了Vague集评分法,增加了评分的客观性。经实例验证,所建立的模型比较有效。  相似文献   

14.
王班  马润年  王刚  陈波 《计算机应用》2015,35(7):1820-1823
现有的复杂网络节点重要性评估研究主要集中在无向无权网络上,不能全面客观反映某些真实复杂网络的情况。针对无向加权和有向加权网络中评估指标适用范围有限、评估结果不够全面等问题,借鉴应用于无向无权网络的基于互信息的节点重要性评估方法,提出适用于无向加权网络和有向加权网络的互信息评估方法。该方法将网络中的每条边看作信息流,结合相应复杂网络的结构特点和"信息量"的定义方法,以求出的节点信息量作为节点的重要性评估指标。对实例网络进行分析可知,所提算法在保证评估准确性前提下,能更加细致刻画有向加权网络节点之间的差异性。在对ARPA网络的节点评估中,所提算法与以往指标所评估出的前5个最重要节点的节点编号尤其相近,凸显出该算法快速发掘核心节点的能力,为快速、准确评估无向加权和有向加权网络核心节点,提高网络抗毁性提供一定理论帮助。  相似文献   

15.
张震  胡学钢 《计算机应用》2011,31(6):1678-1680
针对分类数据集中属性之间的相关性及每个属性取值对属性权值的贡献程度的差别,提出基于互信息量的分类模型以及影响因子与样本预测信息量的计算公式,并利用样本预测信息量预测分类标号。经实验证明,基于互信息量的分类模型可以有效地提高分类算法的预测精度和准确率。  相似文献   

16.
高质量的网络服务是既能保证实时数据的正常传递,又能与Internet连通实现尽力服务,并且还能满足一定的带宽。而实时数据传输的最大时延是考核网络服务质量的重要指标之一。为此,论文给出了引入TCP拥塞控制算法后,同时满足带宽保证、实时与尽力服务三种服务的网络中实时队列最大时延的计算公式。  相似文献   

17.
基于概念格外延信息量的属性约简算法   总被引:2,自引:0,他引:2       下载免费PDF全文
概念格是知识处理与分析的一个有力的工具,在知识约简和数据挖掘方面有着重要的利用。首先给出了概念格外延信息量的概念,在此基础上研究了合理刻画属性重要性的指标,并给出了概念格核心属性的判定定理,然后以这些指标作为启发式信息设计了一种新颖的概念格启发式属性约简算法,最后通过实例表明了该约简算法的可行性与有效性。  相似文献   

18.
在网络安全知识库系统的基础上,提出一个基于网络安全基础知识库系统的入侵检测模型,包括数据过滤、攻击企图分析和态势评估引擎。该模型采用进化型自组织映射发现同源的多目标攻击;采用时间序列分析法获取的关联规则来进行在线的报警事件的关联,以识别时间上分散的复杂攻击;最后对主机级和局域网系统级威胁分别给出相应的评估指标以及对应的量化评估方法。相比现有的IDS,该模型的结构更加完整,可利用的知识更为丰富,能够更容易地发现协同攻击并有效降低误报率。  相似文献   

19.
以新版南京大学数学系网站作为实证研究的样本。根据样本网站在类型、目标、规模和用户方面呈现出的信息特征,对已有的IA2.0评价指标体系酌情进行了增减。对指标评估数据的采集使用问卷调查法,在统计问卷信息时根据实际作答情况局部改进了选用的“网站IA2.0评估模型”。最后运用“网站IA2.0评估改进模型”对样本网站实施评估,并对结果进行分析、指正,以期在日后网站重构时优化其设计和性能、改进服务和管理、提升用户体验等方面产生积极作用。  相似文献   

20.
提出了一种新的信息系统属性约简算法。为此,首先建立了信息系统与关系矩阵之间的联系;其次,从关系矩阵的角度研究了合理刻画属性重要性的新指标;然后利用新指标作为启发式信息设计了一种新的属性约简算法。与现有算法相比,该算法具有较大的灵活性,它能从搜索空间中逐次删除不重要属性,避免对其重要性的重复计算。此外,对该算法的时间复杂度进行了详细的分析,并通过实例和实验验证它的可行性与有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号