共查询到20条相似文献,搜索用时 156 毫秒
1.
局域网传输的数据报中携带大量与数据包相关的信息.这些信息在一定意义上反映了数据报的行为。对数据报行为进行分类可为局域网上的网络入侵检测提供重要依据。文中提出使用C4.5决策树分类算法对局域网数据报进行行为分类,并与以往常用的几种分类算法进行了比较。实验表明,C4.5算法对于该问题无论在分类效率还是在分类正确性方面均有很大的优势。 相似文献
2.
提出了基于决策树C4.5算法的面向对象分类方法.首先利用多尺度分割方法对遥感影像进行分割;然后提取对象的特征信息,包括光谱特征、纹理特征、形状特征、图层特征等,对提取的众多的对象特征,利用决策树C4.5算法对其进行知识挖掘,自动建立分类规则;最后利用建立的分类规则,将C4.5算法作为一种分类器对分割后的遥感影像进行分类,并以南充市城市土地利用为例进行了分类实验.实验验证了该方法的可行性.实验结果表明利用决策树C4.5算法建立的分类规则准确率高,利用该分类规则进行的面向对象分类效果较好. 相似文献
3.
张谯群 《计算机光盘软件与应用》2013,(23):116-117
分类问题是数据研发领域里研究和使用最广泛的技术之一。近几年经济的飞速发展,分类问题在多行业和领域中被广泛使用,那么,怎样更准确、更有效地分类呢?这是多数研究工作人员的目标。决策树(decision tree)以条理清晰,程序严谨,定量、定性分析相结合,方法通俗易懂,容易掌握,应用性较强等优点,被广泛应用。现在构造决策树的算法比较多,如:ID3算法、C4.5算法、CART等。C4.5算法是在ID3算法的基础上进行改进的,C4.5算法选用信息增益率(Info Gain Ratio)为择取分枝属性的标准,此方法弥补了ID3算法在运用信息增益择取分枝属性时偏向于取值较多的属性的不足之处,但是C4.5算法也有部分缺陷,本文主要在其处理连续属性比较耗时问题上进行深入探讨,本文对其连续的处理过程进行改进来提高C4.5算法的计算效率,大大缩短算法用时。 相似文献
4.
决策树分类算法C4.5中连续属性过程处理的改进 总被引:1,自引:1,他引:0
决策树分类算法C4.5是数据挖掘中最常用、最经典的分类算法。但是C4.5算法也存在一些不足之处,针对C4.5算法处理连续属性比较耗时的特点,本文对连续的处理过程进行改进,以提高算法的计算效率。改进的C4.5算法与原C4.5算法相比,在构造决策树时具有相同的准确率和更高的计算速度。 相似文献
5.
C4.5算法是一种非常有影响力的决策树生成算法,但该方法生成的决策树分类精度不高,分支较多,规模较大.针对C4.5算法存在的上述问题,本文提出了一种基于粗糙集理论与CAIM准则的C4.5改进算法.该算法采用基于CAIM准则的离散化方法对连续属性进行处理,使离散化过程中的信息丢失程度降低,提高分类精度.对离散化后的样本用基于粗糙集理论的属性约简方法进行属性约简,剔除冗余属性,减小生成的决策树规模.通过实验验证,该算法可以有效提高C4.5算法生成的决策树分类精度,降低决策树的规模. 相似文献
6.
针对C4.5决策树算法在处理多维数据分类时,没有考虑各属性对分类结果的影响,导致分类准确率低的问题,提出一种基于距离权值的C4.5组合决策树算法。根据标准欧式距离定义数据属性的距离权值,更新C4.5决策树算法的信息增益率,得到基于距离权值的C4.5算法。利用改进后的C4.5决策树分类算法训练多个基分类器,基分类器通过Bagging集成方法构建组合决策树。实验结果表明,该算法在处理多维数据时有较高的准确性和稳定性。 相似文献
7.
决策树分类方法是解决数据挖掘、模式识别中分类任务的有效方法,然而,在大规模的数据集上运行时,其运行效率受到严重影响。文中选取决策树的代表算法C4.5算法为研究对象,利用算法固有的并行性对其进行优化研究。文中利用MATLAB实现串行的C4.5决策树,并对构成该决策树的子函数进行运行时间分析,从而确定信息增益率计算的复杂性为限制算法速度的关键因素。针对此计算瓶颈,结合决策树算法在子节点分割以及最优分裂属性选择等方面的并行性,纵向划分数据,构建了并行的C4.5决策树,并利用MATLAB并行计算池功能以及SPMD设计实现。对并行后决策树运行时间验证结果表明,将C4.5决策树并行化后,并行决策树的构建时间显著缩短,实现了算法的加速。 相似文献
8.
分析和监测微博文本中所包含的情感信息,能够挖掘用户行为,为微博舆情监管提供借鉴。但微博文本具有长度较短、不规范、存在大量变形词和新词等特点,仅以情感词为特征对微博进行分类的方法准确率较低,难以满足实际使用。为此,基于微博语料构建二元搭配词库,并根据PMI-IR算法结合语料库统计信息,提出搭配词组情感权值的计算方法PMI-IR-P。结合情感词典,采用统计方法生成微博情感特征向量,利用机器学习中的C4.5算法构建分类模型,对微博文本进行情感倾向分类。分别使用不同的数据集用于构建搭配词库及分类模型,并与基于情感词典的分类方法以及朴素贝叶斯分类方法进行对比。实验结果表明,提出的情感特征通过运用C4.5算法对微博文本情感分类的准确率达到87%,具有较好的效果。 相似文献
9.
《计算机光盘软件与应用》2013,(2):1-3
考虑到C4.5算法存在的信息增益率计算繁琐问题,提出了一种适合贫困生评定的复杂应用的改进C4.5决策树算法。在C4.5算法的基本原理的基础上,引用Taylor公式简化计算过程,降低了信息增益率的计算量,提高了算法分类速度。详细分析了贫困生认定工作流程,抽取相关信息,运用本文算法分析实验结果表明,该算法在指导高校贫困生认定实际工作中取得显着效果。 相似文献
10.
流分类技术在网络安全监控,QoS,入侵检测等方面起着重要的作用。流分类器处理的数据含有大量的相关与冗余特征,这不仅增加了分类器的计算复杂性,同时也影响了分类器的分类效果。针对高维特征空间,特征选择一方面可以提高分类精度与效率,另一方面可以找出富含信息的特征子集。该文提出一种wrapper型特征选择算法VFSA-C4.5来构建轻量级的流分类器。该算法采用快速模拟退火VFSA搜索策略对特征子集空间进行随机搜索,然后以提供的数据在C4.5上的分类正确率作为特征子集的评价标准,来获取最优特征子集。在流数据集上进行的大量实验结果表明,基于VFSA-C4.5的流分类器在不影响分类性能的情况下能够提高分类速度。 相似文献
11.
文章对IP碎片重组算法RFC815进行了讨论,针对原算法中存在的问题进行了有效的改进,并将该算法应用到基于Linux的网络防火墙中,实现了简洁、高效的IP碎片重组算法。 相似文献
12.
13.
为有效地监听网络状况和数据传输,截获网络传输的数据包,分析网络性能,排除网络故障,文中在以太网的基础上,通过对网络数据包的协议分析,设计并实现了一个网络数据包的协议分析算法(PLA算法)。PLA算法可以有效地对网络中传输的数据包进行协议分析,解决了如何判别在网络上传输的数据包是什么类型的数据包,每一个数据包都用到了哪些协议。通过PLA算法对数据包的分析,可以使得流量统计和流量收费更加精确。 相似文献
14.
15.
在源特定组播(SSM)的基础上,提出了一个分布式可靠组播传输协议--SDRMP(SSM-based distributed reliable multicast protocol).该协议基于划分域和分布式数据存储的思想,在域内由各节点分级保证与直连下游节点间的可靠报文传输,在域间由各个域的主节点分布式保存数据报文,并且发送者的发送速率根据各个域主节点的反馈报文进行调整,避免网络拥塞.仿真实验结果表明,SDRMP能有效地保证组播数据传输的可靠性,并具有较好的可扩展性和TCP友好性. 相似文献
16.
基于sFlow技术,可设计能兼容采集IPv4/v6流量的监测系统.介绍sFlow报文格式以及报文解析后得到的流量信息,详细说明流量信息的含义及作用.在此基础上讨论流量统计数据库的设计及流量采集流程,涉及IPv4/v6信息的兼容存储及数据查询性能优化处理,并给出采集到的一些流量数据. 相似文献
17.
使用特殊复合距离的选播路由算法 总被引:6,自引:0,他引:6
选播成员都是等价的服务器,服务数据的服务质量比作为请求的选播数据报更为重要.使用特殊复合距离的选播路由算法(ASCD)使用跳数、逆向传输延迟、逆向可用带宽以及服务器负载合成的距离来选择路径.不同于其他算法,ASCD使用度量在路径逆向上的值,即从选播数据报目标节点(服务器)到选播数据报源节点(客户)方向,而不是常规从选播数据报的源节点到目的节点方向.ASCD定位的路径和选播成员使选播数据报请求的服务数据能够得到更多路径资源.ASCD还能够在一定程度上平衡服务器负载. 相似文献
18.
19.
双层IPSec与防火墙协同工作的一个设计方案* 总被引:2,自引:0,他引:2
IPSec是为Internet通信提供安全服务的一组标准协议,它封装了传输层中的一些重要信息,而防火墙则需要访问报文中的信息进行控制处理。针对如何能够让IPSec和防火墙协同工作提出一种双层IPSec处理思想:将IP报文分为协议头和数据两部分,使用复合安全关联(Composite SA)对其进行安全处理,使IPSec和防火墙可以各取所需,从而给出上述问题的一个解决方案。该方案的优点在于安全主机与防火墙之间复合安全关联的协商灵活多变,与传统IPSec相比协议格式变化不大,传输效率较高。 相似文献
20.
选播是一种新型的网络服务,它使用户通过一个选播地址就能访问到该地址所表示的一组服务器中对用户来说“最近”的一个。在实时性要求较高的业务传输过程中,保证信息传榆时延尽可能小是非常重要的。本文研究时延受限的选播路由问题,提出一种时延受限的选播路由(DCAR)算法,生成一棵以时延为度量且代价最小的选播生成树。仿真实验结果表明了该算法的正确性和高效性。 [ 相似文献