首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 437 毫秒
1.
对于模式经常发生变化的客户资信评估、垃圾邮件检测和网络入侵检测等在线分类系统来说,自动感知客观存在的新类别,并让系统中的分类器对此作出自适应调整是其正确持续运行必须解决的问题。该文提出了一种适应新类别增加的决策树训练算法,该算法在新类别已检出的前提下,在原有决策树基础上利用新类别样本增量训练出新的决策树。实验结果表明:该文提出的算法可以较好地解决该问题,而与重新训练新决策树相比,它在分类器离线调整上较少的时间花费使其适用于在线分类系统。  相似文献   

2.
一种新的增量决策树算法   总被引:1,自引:0,他引:1  
对于数据增加迅速的客户行为分析、Web日志分析、网络入侵检测等在线分类系统来说,如何快速适应新增样本是确保其分类正确和可持续运行的关键。该文提出了一种新的适应数据增量的决策树算法,该算法同贝叶斯方法相结合,在原有决策树的基础上利用新增样本迅速训练出新的决策树。实验结果表明,提出的算法可以较好的解决该问题,与重新构造决策树相比,它的时间开销更少,且具有更高的分类准确率,更适用于在线分类系统。  相似文献   

3.
在在线分类任务中经常会出现新类别,导致数据分布发生显著变化,使得已有分类器不再适用.如何识别新类以使分类器能适应其出现已成为在线分类亟待解决的问题.本文提出基于距离尺度学习的识别偏离型新类的算法用于解决该问题.该方法能在缺少先验知识的前提下自动识别新类,并较好地解决了样本间类别相似性同样本间距离不一致的问题,为分类器的自适应更新提供了关键技术.在多个数据集上的实验结果表明在客观新类出现后该方法能有效发现新类,可使更新后的分类器保持较高准确度,为实现适应新类的在线分类系统奠定坚实基础.  相似文献   

4.
《微型机与应用》2016,(3):28-30
随机森林可以产生高准确度的分类器,被广泛用于解决模式识别问题。然而,随机森林赋予每个决策树相同的权重,这在一定程度上降低了整个分类器的性能。为了解决这个问题,本文提出一种加权随机森林算法。该算法引入二次训练过程,提高分类正确率高的决策树投票权重,降低分类错误率高的决策树投票权重,从而提高整个分类器的分类能力。通过在不同数据集上的分类测试实验,证明了本文算法相比于传统的随机森林算法具有更强的分类性能。  相似文献   

5.
基于决策支持向量机的中文网页分类器   总被引:10,自引:0,他引:10  
提出了基于决策支持向量机的中文网页分类算法。把支持向量机方法和二叉决策树的基本思想结合起来构成多类别的分类器,用于中文网页分类,从而减少支持向量机分类器训练样本的数量,提高训练效率。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。  相似文献   

6.
非平衡二叉树多类支持向量机分类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
提出一种新的基于非平衡二叉树的支持向量机多类别分类方法。该方法通过分析已知类别样本的先验分布知识,构造一个二叉决策树,使容易区分的类别从根节点开始逐层分割出来,以获得较高的推广能力。该方法解决了传统分类算法中所存在的不可分区域问题,在训练时只需构造N-1个SVM分类器,而测试时的判决次数小于N。将该方法应用于人脸识别实验。测试结果表明,与传统分类算法相比,该方法的平均分类时间是最少的。  相似文献   

7.
郭冰楠  吴广潮 《计算机应用》2019,39(10):2888-2892
在网络贷款用户数据集中,贷款成功和贷款失败的用户数量存在着严重的不平衡,传统的机器学习算法在解决该类问题时注重整体分类正确率,导致贷款成功用户的预测精度较低。针对此问题,在代价敏感决策树敏感函数的计算中加入类分布,以减弱正负样本数量对误分类代价的影响,构建改进的代价敏感决策树;以该决策树作为基分类器并以分类准确度作为衡量标准选择表现较好的基分类器,将它们与最后阶段生成的分类器集成得到最终的分类器。实验结果表明,与已有的常用于解决此类问题的算法(如MetaCost算法、代价敏感决策树、AdaCost算法等)相比,改进的代价敏感决策树对网络贷款用户分类可以降低总体的误分类错误率,具有更强的泛化能力。  相似文献   

8.
基于Multi-Agent的分类器融合   总被引:14,自引:0,他引:14  
针对决策层输出的分类器融合问题,该文提出了一种基于Multi-Agent思想的融合算法,该算法将分类器融合问题建模为人类发源地问题,通过引入决策共现矩阵,并在智能体之间进行信息交互,从而利用了分类器之间的决策相关信息,算法根据在融合训练集上得到的统计参量,指导各个智能体向不同类别溯源,并通过智能体之间的信息交换改变溯源概率,最终达到群体决策,得到决策类别,本文在标准数据集上对该算法进行了实验研究,通过与其它一些融合方法的比较,得出在用于融合的分类器较少时,该算法得到比其它方法更低的分类错误率,其空间复杂度相对BKS方法较小,实验证实,该算法是收敛的。  相似文献   

9.
基于结构风险最小原理的支持向量机(SVM)具有较强的学习泛化能力和良好的分类性能,能用来解决少样本学习的二类模式识别问题。针对具备多级类别的地下水水质评价问题,可以采用决策树SVM分类方法,通过对多类别水质标准的重新组合以构建类似于决策树的多个子分类器来实现。但基于决策树SVM分类过程中常常会出现由于正负类训练样本数据不均一导致的局部识别误差。基于二叉树原理提出了一种改进决策树SVM模型,通过加密数据插值和二叉分类有效避免正负类训练样本数据不均一的问题,针对地下水水质评价特点,增加了第5个子分类器以精确识别Ⅱ类水质和Ⅲ类水质。实验结果表明,改进的决策树SVM分类模型评价结果稳定。  相似文献   

10.
针对C4.5决策树算法在处理多维数据分类时,没有考虑各属性对分类结果的影响,导致分类准确率低的问题,提出一种基于距离权值的C4.5组合决策树算法。根据标准欧式距离定义数据属性的距离权值,更新C4.5决策树算法的信息增益率,得到基于距离权值的C4.5算法。利用改进后的C4.5决策树分类算法训练多个基分类器,基分类器通过Bagging集成方法构建组合决策树。实验结果表明,该算法在处理多维数据时有较高的准确性和稳定性。  相似文献   

11.
概念漂移是数据流学习领域中的一个难点问题,同时数据流中存在的类不平衡问题也会严重影响算法的分类性能。针对概念漂移和类不平衡的联合问题,在基于数据块集成的方法上引入在线更新机制,结合重采样和遗忘机制提出了一种增量加权集成的不平衡数据流分类方法(incremental weighted ensemble for imbalance learning, IWEIL)。该方法以集成框架为基础,利用基于可变大小窗口的遗忘机制确定基分类器对窗口内最近若干实例的分类性能,并计算基分类器的权重,随着新实例的逐个到达,在线更新IWEIL中每个基分器及其权重。同时,使用改进的自适应最近邻SMOTE方法生成符合新概念的新少数类实例以解决数据流中类不平衡问题。在人工数据集和真实数据集上进行实验,结果表明,相比于DWMIL算法,IWEIL在HyperPlane数据集上的G-mean和recall指标分别提升了5.77%和6.28%,在Electricity数据集上两个指标分别提升了3.25%和6.47%。最后,IWEIL在安卓应用检测问题上表现良好。  相似文献   

12.
集成多个传感器的智能片上系统( SoC)在物联网得到了广泛的应用.在融合多个传感器数据的分类算法方面,传统的支持向量机( SVM)单分类器不能直接对传感器数据流进行小样本增量学习.针对上述问题,提出一种基于Bagging-SVM的集成增量算法,该算法通过在增量数据中采用Bootstrap方式抽取训练集,构造能够反映新信息变化的集成分类器,然后将新老分类器集成,实现集成增量学习.实验结果表明:该算法相比SVM单分类器能够有效降低分类误差,提高分类准确率,且具有较好的泛化能力,可以满足当下智能传感器系统基于小样本数据流的在线学习需求.  相似文献   

13.
Chunyu  Jie   《Pattern recognition》2008,41(8):2656-2664
Online classification is important for real time data sequence classification. Its most challenging problem is that the class priors may vary for non-stationary data sequences. Most of the current online-data-sequence-classification algorithms assume that the class labels of some new-arrived data samples are known and retrain the classifier accordingly. Unfortunately, such assumption is often violated in real applications. But if we were able to estimate the class priors on the test data sequence accurately, we could adjust the classifier without retraining it while preserving a reasonable accuracy. There has been some work on the class priors estimation to classify static data sets using the offline iterative EM algorithm, which has been proved to be quite effective to adjust the classifier. Inspired by the offline iterative EM algorithm for static data sets, in this paper, we propose an online incremental EM algorithm to estimate the class priors along the data sequence. The classifier is adjusted accordingly to keep pace with the varying distribution. The proposed online algorithm is more computationally efficient because it scans the sequence only once. Experimental results show that the proposed algorithm indeed performs better than the conventional offline iterative EM algorithm when the class priors are non-stationary.  相似文献   

14.
An adaptive genetic-based signature learning system for intrusion detection   总被引:1,自引:0,他引:1  
Rule-based intrusion detection systems generally rely on hand crafted signatures developed by domain experts. This could lead to a delay in updating the signature bases and potentially compromising the security of protected systems. In this paper, we present a biologically-inspired computational approach to dynamically and adaptively learn signatures for network intrusion detection using a supervised learning classifier system. The classifier is an online and incremental parallel production rule-based system.A signature extraction system is developed that adaptively extracts signatures to the knowledge base as they are discovered by the classifier. The signature extraction algorithm is augmented by introducing new generalisation operators that minimise overlap and conflict between signatures. Mechanisms are provided to adapt main algorithm parameters to deal with online noisy and imbalanced class data. Our approach is hybrid in that signatures for both intrusive and normal behaviours are learnt.The performance of the developed systems is evaluated with a publicly available intrusion detection dataset and results are presented that show the effectiveness of the proposed system.  相似文献   

15.
马慧芳  王博 《计算机工程》2013,39(3):191-196
为更好地利用微博结构化社会网络方面的信息,提出一种基于增量主题模型的微博在陑事件分析算法。通过设计增量过程,保留已有的训练信息,采用自适应非对称学习算法融入新微博内容与用户关系。实验结果表明,该算法可在短暂的时间内建模,并有效提高事件分析的性能。  相似文献   

16.
周大镯  刘雷 《计算机工程》2009,35(16):45-47
在k-近邻局部异常检测算法的基础上,结合时间序列的分割方法,提出一种高效率的时间序列增量异常模式检测算法。将时间序列按序列重要点进行数据分割,利用局部异常检测方法检测出时间序列的异常模式。当插入一些新数据时,邻近分割模式发生变化,增量异常检测算法更新相应的最近邻模式。通过该算法可以高效率地发现时间序列的异常模式。  相似文献   

17.
基于后缀树的带有通配符的模式匹配研究   总被引:1,自引:1,他引:0  
由于在生物序列分析、文本索引、网络入侵检测等领域的应用需求,带有通配符的模式匹配问题一直是研究 的热点。针对已有的研究工作中通配符和长度约束具有较强的局限性问题,研究带有灵活通配符的模式匹配问题,其 中通配符可以在模式的任意两子串间出现且可以指定灵活的长度约束。采用非线性数据结构—后缀树,设计了求 解模式所有解的完备算法PAS"I'。预处理阶段采用在线增量式算法构建具有文本先验知识的后缀树,搜索阶段结合 动态规划的思想,逐个匹配模式中字符,最终得到完备解。在基因序列上的实验表明,PAST比其他算法具有更好的 时间性能。  相似文献   

18.
宽度学习系统(broad learning system,BLS)作为深度神经网络的替代框架,具有快速自适应模型结构选择和在线增量学习能力,被认为是知识发现和数据工程领域中一种极具前途的技术.传统的BLS主要应用于数据分 布均衡且误分类代价相同的模式分类任务,但大多数实际应用的数据是非均衡分布的,如网络入侵监测、医疗诊断、信用卡欺诈检测等.基于此,提出一种基于数据分布特性的代价敏感BLS(data distribution-based cost-sensitive-BLS,DDbCs-BLS),解决数据分布不均、误分代价不同的模式分类任务.DDbCs-BLS在充分考虑数据统计分布特性的基础上寻找代价敏感型BLS分类器的最佳分类边界,保证少数类样本信息不被丢失,从而提高BLS在各类数据集上的模式分类性能.在多种公共数据集(包括均衡和不均衡数据集)上进行大量的验证性和对比性实验,结果表明DDbCs-BLS能有效确定分类边界线的最佳位置,无论是在均衡数据集还是在不均衡数据集上均能获得更好的分类性能.  相似文献   

19.
Piecewise linear functions can be used to approximate non-linear decision boundaries between pattern classes. Piecewise linear boundaries are known to provide efficient real-time classifiers. However, they require a long training time. Finding piecewise linear boundaries between sets is a difficult optimization problem. Most approaches use heuristics to avoid solving this problem, which may lead to suboptimal piecewise linear boundaries. In this paper, we propose an algorithm for globally training hyperplanes using an incremental approach. Such an approach allows one to find a near global minimizer of the classification error function and to compute as few hyperplanes as needed for separating sets. We apply this algorithm for solving supervised data classification problems and report the results of numerical experiments on real-world data sets. These results demonstrate that the new algorithm requires a reasonable training time and its test set accuracy is consistently good on most data sets compared with mainstream classifiers.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号