首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
虚拟样本是一种在学习过程中引入先验知识的有效手段,一定程度上提高了分类器的性能。然而由于生成的虚拟样本集的数据分布与原始训练集的分布不一致,因此利用虚拟样本扩充后的训练样本集进行学习的分类器分类性能上存在波动。针对这种不足,提出一种基于权重选择虚拟样本的新分类算法。该方法首先利用TrAdaBoost算法对扩充后的样本集进行预处理,然后选取权重大于某一给定阈值的样本构造新训练样本集,最后根据新样本集进行训练得到分类器。由于排出了不重要的样本,因此在新样本集上得到的分类器具有更高的精度。在部分UCI标准数据集与KDD cup 99网络入侵检测数据集上的对比实验说明了该算法较不产生虚拟样本的直接分类算法和利用虚拟样本全集进行训练的分类算法具有更高的精度。  相似文献   

2.
针对BP网络用于工业仪表识别中的泛化能力较差问题,根据七段码数显仪表的特点,采用模拟七段码码段重叠的方法,构造虚拟样本,并研究了包含虚拟样本的新训练集和不包含虚拟样本的原始训练集下BP网络的识别效果和泛化能力,发现了新训练样本集训练得到的BP网络对仪表上的七段码识别率与原始训练集训练得到的BP网络相比,识别效果较好,且泛化能力提高了。实验结果表明了该虚拟样本的构造方法的有效性和合理性。  相似文献   

3.
为了丰富训练样本的类内变化信息,提出了基于通用训练样本集的虚拟样本生成方法。进一步,为了利用生成的虚拟样本中的类内变化信息有效地完成单样本人脸识别任务,提出了基于虚拟样本图像集的多流行鉴别学习算法。该算法首先将每类仅有的单个训练样本图像和该类的虚拟样本图像划分为互补重叠的局部块并构建流形,然后为每个流形学习一个投影矩阵,使得相同流形内的局部块在投影后的低维特征空间间隔最小化,不同流形中的局部块在投影后的低维特征空间中间隔最大化。实验结果表明,所提算法能够准确地预测测试样本中的类内变化,是一种有效的单样本人脸识别算法。  相似文献   

4.
针对神经网络分类器训练时间长、泛化能力差的问题,提出了一种基于动态数据约简的神经网络分类器训练方法(DDR)。该训练方法在训练过程中赋给每个训练样本一个权重值作为样本的重要性度量,依据每次网络迭代训练样本的分类错误率动态更新每个训练样本的权重值,之后依据样本的权重值来约简训练样本,从而增加易错分类的边界样本比重,减少冗余核样本的作用。数值实验表明,基于权重的动态数据约简神经网络训练方法不仅大幅缩短了网络的训练时间,而且还能够显著提升网络的分类泛化能力。  相似文献   

5.
应用支持向量机实现增量入侵检测   总被引:2,自引:0,他引:2  
支持向量机的最大特点是通过有限的训练集样本得到小的误差,保证对独立的测试集保持小的误差,即在先验知识较少的条件下仍然保持良好的推广能力。增量学习是弥补先验知识不足的有效途径。通过对向量机初始训练、增量学习、特征解析等一系列流程的描述,提出了一种小样本下应用支持向量机技术创建的具有增量学习能力的入侵检测系统。  相似文献   

6.
在有限样本下判别模型对训练样本敏感,易导致分类器学习结果泛化性能较弱,产生过拟合现象.针对上述问题,提出一种贝叶斯先验约束下的混合判别方法.通过在判别计算中引入生成先验分析,构建生成与判别模型在决策层的混合求解框架.该方法采用不同质分类器进行分类预测,并通过定义有效的融合机制进行样本筛选和标签决策,自动扩展训练集以更新模型,弥补训练样本信息的不完全性.有限样本下的场景分类实验结果表明,相比经典算法,该模型能够挖掘出具有高度判别特性的样本,从而进行有效的模型更新,纠正前期由于样本分布不均而导致的错分样本标签,提升场景分类精度.  相似文献   

7.
入侵检测系统中训练样本集的构造方法   总被引:2,自引:0,他引:2  
张莉  陈恭和 《计算机工程与应用》2006,42(28):145-146,180
以入侵检测系统中的分类器设计为例,研究分类器的训练样本构造问题。提出了一种适合样本分布不均匀、海量数据集的训练样本子集构造方法,首先通过保留边界样本,删除内部样本,对样本数量较多的类,进行选择样本;然后对样本数量较少的类构造虚拟样本。通过这两个过程得到的训练子集样本数量较少,且样本分布均匀。  相似文献   

8.
基于代表样本动态生成的中文网页分类   总被引:2,自引:0,他引:2  
华北  曹先彬 《计算机应用》2006,26(10):2502-2504
针对中文网页分类问题该文设计了一种新的基于代表样本动态生成的分类算法。算法通过对原始训练样本集的训练逐个生成代表样本,并充分利用被裁剪训练样本的有效信息,对已生成的代表样本进行多次调整,从而使代表样本更具有代表性。基于该算法的中文网页分类器的实验结果表明,算法有效地压缩了原始训练样本集,提高了分类效率,同时保持了分类的准确性;具有较好的分类性能。  相似文献   

9.
经典的支持向量机(SVM)训练算法的实质是求解一个凸二次规划问题,当训练样本很多时,算法的速度会比较慢,且如果两类样本过分交叉,又会降低支持向量机的泛化能力。为了加快支持向量机的训练速度和改善其泛化能力。文章提出了一种改进的样本简约方法。该方法首先抽取边界样本,然后对边界样本中可能存在的噪音、孤立点进行修剪,由此得出最终的训练样本。实验结果表明,该简约方法不仅节约了训练时间,而且改善了支持向量机的泛化性能。  相似文献   

10.
回归学习是用于对具有实值标记样本进行学习建模的监督学习技术。为获得良好的预测性能,通常需要大量的训练样本,然而,在实际应用中可收集到的训练样本数量极少。针对该问题,提出一种基于二次学习框架的新型二次回归学习方法———基于神经网络集成的回归树算法( NERT)。该方法借助虚拟样本生成技术,通过串行执行的两个学习阶段对其进行有效利用,有效缓解训练样本不足的困难,从而提升学习性能。同时,通过为两个阶段分别选择泛化能力强和理解性好的学习方法,可得到预测性能好且可理解性高的模型。实验结果表明在训练样本极少的软件开发工作量预测问题上,NERT方法能够从小样本数据得到比现有方法更好的预测性能,同时其模型内在可理解性能够揭示工作量预测的关键因素。  相似文献   

11.
Traditional machine learning algorithms are not with satisfying generalization ability on noisy, imbalanced, and small sample training set. In this work, a novel virtual sample generation (VSG) method based on Gaussian distribution is proposed. Firstly, the method determines the mean and the standard error of Gaussian distribution. Then, virtual samples can be generated by such Gaussian distribution. Finally, a new training set is constructed by adding the virtual samples to the original training set. This work has shown that training on the new training set is equivalent to a form of regularization regarding small sample problems, or cost-sensitive learning regarding imbalanced sample problems. Experiments show that given a suitable number of virtual sample replicates, the generalization ability of the classifiers on the new training sets can be better than that on the original training sets.  相似文献   

12.
In machine learning, the model is not as complicated as possible. Good generalization ability means that the model not only performs well on the training data set, but also can make good prediction on new data. Regularization imposes a penalty on model’s complexity or smoothness, allowing for good generalization to unseen data even when training on a finite training set or with an inadequate iteration. Deep learning has developed rapidly in recent years. Then the regularization has a broader definition: regularization is a technology aimed at improving the generalization ability of a model. This paper gave a comprehensive study and a state-of-the-art review of the regularization strategies in machine learning. Then the characteristics and comparisons of regularizations were presented. In addition, it discussed how to choose a regularization for the specific task. For specific tasks, it is necessary for regularization technology to have good mathematical characteristics. Meanwhile, new regularization techniques can be constructed by extending and combining existing regularization techniques. Finally, it concluded current opportunities and challenges of regularization technologies, as well as many open concerns and research trends.  相似文献   

13.
In manufacturing systems, only a small training dataset can be obtained in the early stages. A small training dataset usually leads to low learning accuracy with regard to classification of machine learning, and the knowledge derived is often fragile, and this is called the small sample problem. This research mainly aims at overcoming this problem using a special nonlinear classification technique to generate virtual samples to enlarge the training dataset for learning improvement. This research proposes a new sample generation method, named non-linear virtual sample generation (NVSG), which combines a unique group discovery technique and a virtual sample generation method using parametric equations of hypersphere. By applying a back-propagation neural network (BPN) as the learning tool, the computational experiments obtained from the simulated dataset and the real dataset quoted from the Iris Plant Database show that the learning accuracy can be significantly improved using NVSG method for very small training datasets.  相似文献   

14.
基于支持向量机的入侵检测系统   总被引:78,自引:2,他引:76  
饶鲜  董春曦  杨绍全 《软件学报》2003,14(4):798-803
目前的入侵检测系统存在着在先验知识较少的情况下推广能力差的问题.在入侵检测系统中应用支持向量机算法,使得入侵检测系统在小样本(先验知识少)的条件下仍然具有良好的推广能力.首先介绍入侵检测研究的发展概况和支持向量机的分类算法,接着提出了基于支持向量机的入侵检测模型,然后以系统调用执行迹(system call trace)这类常用的入侵检测数据为例,详细讨论了该模型的工作过程,最后将计算机仿真结果与其他检测方法进行了比较.通过实验和比较发现,基于支持向量机的入侵检测系统不但所需要的先验知识远远小于其他方法,而且当检测性能相同时,该系统的训练时间将会缩短.  相似文献   

15.
针对有限样本学习机器的偏差/方差的困境,以及过拟合引起的泛化性能的下降,分析了样本选择对学习机器泛化的影响,提出误差相关度学习算法ECL,利用误差相关度来权衡偏差和方差的关系,避免了求解复杂学习系统的VC维数,并以样本点的误差相关度为指标来选择训练子集,提高学习机器的泛化性能.仿真结果表明ECL算法有效地抑制过拟合现象的发生,保证学习机器泛化性能的提高.  相似文献   

16.
基于对抗样本的攻击方法是机器学习算法普遍面临的安全挑战之一。以机器学习的安全性问题为出发点,介绍了当前机器学习面临的隐私攻击、完整性攻击等安全问题,归纳了目前常见对抗样本生成方法的发展过程及各自的特点,总结了目前已有的针对对抗样本攻击的防御技术,最后对提高机器学习算法鲁棒性的方法作了进一步的展望。  相似文献   

17.
传统机器学习方法泛化性能不佳,需要通过大规模数据训练才能得到较好的拟合结果,因此不能快速学习训练集外的少量数据,对新种类任务适应性较差,而元学习可实现拥有类似人类学习能力的强人工智能,能够快速适应新的数据集,弥补机器学习的不足。针对传统机器学习中的自适应问题,利用样本图片的局部旋转对称性和镜像对称性,提出一种基于群等变卷积神经网络(G-CNN)的度量元学习算法,以提高特征提取能力。利用G-CNN构建4层特征映射网络,根据样本图片中的局部对称信息,将支持集样本映射到合适的度量空间,并以每类样本在度量空间中的特征平均值作为原型点。同时,通过同样的映射网络将查询机映射到度量空间,根据查询集中样本到原型点的距离完成分类。在Omniglot和miniImageNet数据集上的实验结果表明,该算法相比孪生网络、关系网络、MAML等传统4层元学习算法,在平均识别准确率和模型复杂度方面均具有优势。  相似文献   

18.
增量学习广泛运用于人工智能、模式识别等诸多领域,是解决系统在训练初期样本量少而随时间推移性能降低的有效方法。本文针对经典支持向量机当训练样本数量多而运算速度较慢的缺点,在分析支持向量机的基础上,提出基于驱动错误准则的增量学习方法,实验结果表明,该算法不仅能保证学习机器的精度和良好的推广能力,而且算法的学习速度比经典的SVM算法快,可以进行增量学习。  相似文献   

19.
鞅在学习样本选择中的应用   总被引:1,自引:0,他引:1  
样本训练集的选取对网络分类精度及泛化能力有很大影响,同样对回归分析中的两难问题“偏差-方差”影响很大。经典的简单抽样理论在现实中很难做到,数据之间关系受到噪音以及领域知识的限制而显得很复杂,尤其是离群点的影响不能忽视。故而有限样本集中学习,如何获得最优结果不仅与算法有关,且与样本集的选取有关。文章首先从学习的数学理论出发阐明样本训练集的选取方法必要性,进而提出样本选择的鞅性要求与样本训练集中的离群点定义,最后提出在无监督学习中,混合密度分布有限样本集且样本类别数不知情形下的聚类与离群点判别算法,试验结果表明该算法的可行性与有效性。  相似文献   

20.
神经网络VC维计算研究   总被引:3,自引:0,他引:3  
1 引言神经网络技术已经在很多领域得到了成功的应用.但由于神经网络并不具有一个统一的理论框架,其经验性成分相当高,这对其进一步发展造成了极大的阻碍。如果能为神经网络应用提供一些指导性的分析方法,不仅将促进该领域的理论研究,还可以在应用  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号