首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
在实际应用中,容易获取大量的未标记样本数据,而样本数据是有限的,因此,半监督分类算法成为研究者关注的热点.文中在协同训练Tri-Training算法的基础上,提出了采用两个不同的训练分类器的Simple-Tri-Training方法和对标记数据进行编辑的Edit-Tri-Training方法,给出了这三种分类方法与监督分类SVM的分类实验结果的比较和分析.实验表明,无标记数据的引入,在一定程度上提高了分类的性能;初始训练集和分类器的选取以及标记过程中数据编辑技术,都是影响半监督分类稳定性和性能的关键点.  相似文献   

2.
为解决监督学习过程中难以获得大量带有类标记样本且样本数据标记代价较高的问题,结合主动学习和半监督学习方法,提出基于Tri-training半监督学习和凸壳向量的SVM主动学习算法.通过计算样本集的壳向量,选择最有可能成为支持向量的壳向量进行标记.为解决以往主动学习算法在选择最富有信息量的样本标记后,不再进一步利用未标记样本的问题,将Tri-training半监督学习方法引入SVM主动学习过程,选择类标记置信度高的未标记样本加入训练样本集,利用未标记样本集中有利于学习器的信息.在UCI数据集上的实验表明,文中算法在标记样本较少时获得分类准确率较高和泛化性能较好的SVM分类器,降低SVM训练学习的样本标记代价.  相似文献   

3.
张雁  吕丹桔  吴保国 《微机发展》2013,(7):77-79,83
在实际应用中,容易获取大量的未标记样本数据,而样本数据是有限的,因此,半监督分类算法成为研究者关注的热点。文中在协同训练Tri-Training算法的基础上,提出了采用两个不同的训练分类器的Simple-Tri-Training方法和对标记数据进行编辑的Edit-Tri-Training方法,给出了这三种分类方法与监督分类SVM的分类实验结果的比较和分析。实验表明,无标记数据的引入,在一定程度上提高了分类的性能;初始训练集和分类器的选取以及标记过程中数据编辑技术,都是影响半监督分类稳定性和性能的关键点。  相似文献   

4.
基于Kmeans与SVM结合的遥感图像全自动分类方法*   总被引:1,自引:0,他引:1  
遥感图像分类方法通常采用监督的学习算法,它需要人工选取训练样本,比较繁琐,而且有时很难得到;而非监督学习算法的分类精度通常很难令人满意.针对这些缺陷,提出一种基于K-means与支持向量机(SVM)结合的遥感图像全自动分类方法.首先使用K-means聚类算法对样本进行初始聚类,根据每类中样本数及其稀疏程度选取一些点作为标记的学习样本训练SVM分类器,然后用SVM对原始数据重新分类.Iris数据和遥感数据的实验结果均验证了新方法的有效性.  相似文献   

5.
当前机器学习面临的主要问题之一是如何有效地处理海量数据,而标记训练数据是十分有限且不易获得的。提出了一种新的半监督SVM算法,该算法在对SVM训练中,只要求少量的标记数据,并能利用大量的未标记数据对分类器反复的修正。在实验中发现,Tri-training的应用确实能够提高SVM算法的分类精度,并且通过增大分类器间的差异性能够获得更好的分类效果,所以Tri-training对分类器的要求十分宽松,通过SVM的不同核函数来体现分类器之间的差异性,进一步改善了协同训练的性能。理论分析与实验表明,该算法具有较好的学习效果。  相似文献   

6.
如何有效利用海量的数据是当前机器学习面临的一个重要任务,传统的支持向量机是一种有监督的学习方法,需要大量有标记的样本进行训练,然而有标记样本的数量是十分有限的并且非常不易获取.结合Co-training算法与Tri-training算法的思想,给出了一种半监督SVM分类方法.该方法采用两个不同参数的SVM分类器对无标记样本进行标记,选取置信度高的样本加入到已标记样本集中.理论分析和计算机仿真结果都表明,文中算法能有效利用大量的无标记样本,并且无标记样本的加入能有效提高分类的正确率.  相似文献   

7.
基于Tri-Training和数据剪辑的半监督聚类算法   总被引:3,自引:1,他引:2  
邓超  郭茂祖 《软件学报》2008,19(3):663-673
提出一种半监督聚类算法,该算法在用seeds集初始化聚类中心前,利用半监督分类方法Tri-training的迭代训练过程对无标记数据进行标记,并加入seeds集以扩大规模;同时,在Tri-training训练过程中结合基于最近邻规则的Depuration数据剪辑技术对seeds集扩大过程中产生的误标记噪声数据进行修正、净化,以提高seeds集质量.实验结果表明,所提出的基于Tri-training和数据剪辑的DE-Tri-training半监督聚类新算法能够有效改善seeds集对聚类中心的初始化效果,提高聚类性能.  相似文献   

8.
在实际的分类任务中,无标记样本数量充足而有标记样本数量稀少的情况经常出现,目前处理这种情况的常用方法是半监督自训练分类算法。提出了一种基于数据密度的半监督自训练分类算法,该算法首先依据数据的密度对数据集进行划分,从而确定数据的空间结构;然后再按照数据的空间结构对分类器进行自训练的迭代,最终得到一个新的分类器。在UCI中6个数据集上的实验结果表明,与三种监督学习算法以及其分别对应的自训练版本相比,提出的算法分类效果更好。  相似文献   

9.
针对传统网络流量分类方法准确率低、开销大、应用范围受限等问题,提出一种支持向量机(SVM)的半监督网络流量分类方法。该方法在SVM训练中,使用增量学习技术在初始和新增样本集中动态地确定支持向量,避免不必要的重复训练,改善因出现新样本而造成原分类器分类精度降低、分类时间长的情况;改进半监督Tri-training方法对分类器进行协同训练,同时使用大量未标记和少量已标记样本对分类器进行反复修正, 减少辅助分类器的噪声数据,克服传统协同验证对分类算法及样本类型要求苛刻的不足。实验结果表明,该方法可明显提高网络流量分类的准确率和效率。  相似文献   

10.
针对支持向量机方法在标记用户数据不充分的情况下无法有效实现托攻击检测的不足,提出一种基于SVM-KNN的半监督托攻击检测方法。根据少量标记用户数据训练一个初始SVM分类器,利用初始SVM对大量未标记用户数据进行分类,挑选出分类边界附近有可能成为支持向量的样本点,利用KNN分类器优化边界向量的标记质量,再将重新标注过的边界向量融入训练集,迭代训练逐步改善SVM的分类边界,最终获得系统决策函数。实验结果表明在标记用户数据较少的情况下,方法能有效提高托攻击的检测精度和效率,具有较强的推广能力。  相似文献   

11.
PEBL: Web page classification without negative examples   总被引:7,自引:0,他引:7  
Web page classification is one of the essential techniques for Web mining because classifying Web pages of an interesting class is often the first step of mining the Web. However, constructing a classifier for an interesting class requires laborious preprocessing such as collecting positive and negative training examples. For instance, in order to construct a "homepage" classifier, one needs to collect a sample of homepages (positive examples) and a sample of nonhomepages (negative examples). In particular, collecting negative training examples requires arduous work and caution to avoid bias. The paper presents a framework, called positive example based learning (PEBL), for Web page classification which eliminates the need for manually collecting negative training examples in preprocessing. The PEBL framework applies an algorithm, called mapping-convergence (M-C), to achieve high classification accuracy (with positive and unlabeled data) as high as that of a traditional SVM (with positive and negative data). M-C runs in two stages: the mapping stage and convergence stage. In the mapping stage, the algorithm uses a weak classifier that draws an initial approximation of "strong" negative data. Based on the initial approximation, the convergence stage iteratively runs an internal classifier (e.g., SVM) which maximizes margins to progressively improve the approximation of negative data. Thus, the class boundary eventually converges to the true boundary of the positive class in the feature space. We present the M-C algorithm with supporting theoretical and experimental justifications. Our experiments show that, given the same set of positive examples; the M-C algorithm outperforms one-class SVMs, and it is almost as accurate as the traditional SVMs.  相似文献   

12.
The monitoring of tool wear status is paramount for guaranteeing the workpiece quality and improving the manufacturing efficiency. In some cases, classifier based on small training samples is preferred because of the complex tool wear process and time consuming samples collection process. In this paper, a tool wear monitoring system based on relevance vector machine (RVM) classifier is constructed to realize multi categories classification of tool wear status during milling process. As a Bayesian algorithm alternative to the support vector machine (SVM), RVM has stronger generalization ability under small training samples. Moreover, RVM classifier results in fewer relevance vectors (RVs) compared with SVM classifier. Hence, it can be carried out much faster compared to the SVM. To show the advantages of the RVM classifier, milling experiment of Titanium alloy was carried out and the multi categories classification of tool wear status under different numbers of training samples and test samples are realized by using SVM and RVM classifier respectively. The comparison of SVM with RVM shows that the RVM can get more accurate results under different number of small training samples. Moreover, the speed of classification is faster than SVM. This method casts some new lights on the industrial environment of the tool condition monitoring.  相似文献   

13.
提出了一种基于感知器的SVM分类模型(PSVM)。该模型在对分类器的训练中,引入感知器分类思想,其先利用SVM的核函数进行核计算,判断其分类性能,分类正确则不作任何修改,反之则转化成感知器分类问题。实验结果表明该模型不但能提高SVM的分类性能,而且还可以降低SVM分类性能对核函数及参数选择的依赖。  相似文献   

14.
SVM-KNN分类算法研究   总被引:1,自引:0,他引:1  
SVM-KNN分类算法是一种将支持向量机(SVM)分类和最近邻(NN)分类相结合的新分类方法。针对传统SVM分类器中存在的问题,该算法通过支持向量机的序列最小优化(SMO)训练算法对数据集进行训练,将距离差小于给定阈值的样本代入以每类所有的支持向量作为代表点的K近邻分类器中进行分类。在UCI数据集上的实验结果表明,该分类器的分类准确率比单纯使用SVM分类器要高,它在一定程度上不受核函数参数选择的影响,具有较好的稳健性。  相似文献   

15.
为了提高IDS入侵样本检测的速度,提出了分类器选择的入侵检测方法.该方法充分考虑到线性分类器在数据分类操作中的速度优势,以线性可分度判定的的结果为基础,灵活选择(非)线性分类器进行数据分类,较之单一的SVM分类方法,虽然增加了额外的线性判别的系统开销,却因此获得分类性能的极大提升.在KDD Cup99数据集上进行实验,...  相似文献   

16.
支持向量机是重要的机器学习方法之一,已成功解决了许多实际的分类问题。围绕如何提高支持向量机的分类精度与训练效率,以分类过程为主线,主要综述了在训练支持向量机之前不同的特征选取方法与学习策略。在此基础上,比较了不同的特征选取方法SFS,IWSS,IWSSr以及BARS的分类精度,分析了主动学习策略与支持向量机融合后获得的分类器在测试集上的分类精度与正确率/召回率平衡点两个性能指标。实验结果表明,包装方法与过滤方法相结合的特征选取方法能有效提高支持向量机的分类精度和减少训练样本量;在标签数据较少的情况下,主动学习能达到更好的分类精度,而为了达到相同的分类精度,被动学习需要的样本数量必须要达到主动学习的6倍。  相似文献   

17.
一种具有容噪性能的SVM多值分类器   总被引:16,自引:1,他引:15  
基于 SVM理论的分类器已经发展成为一种通用的二值分类器 .但是它对噪音数据非常敏感 ,而且不适用于多值分类场合 .将标准的 PCA算法扩展到更普遍的领域 ,并提出了一种新的 SVM分类器学习结构 .它使用扩展的 PCA算法对训练集数据进行降噪映射 ,产生一个新的数据集 ,然后通过反对称阵将一组二值分类器组合成一个多值分类器来处理该数据集 .理论分析和试验表明该分类器学习效率高并具有很强的容噪性能  相似文献   

18.
经典的支持向量机(Support Vector Machine,简称SVM)是针对二类分类的,在解决大气质量等级这种典型的多类分类问题时存在困难,本文提出了基于决策二叉树支持向量机的大气质量分类算法,将分类器分布在各个结点上,从而构成了多类支持向量机,减少了分类器数量和重复训练样本的数量。实验结果表明该方法能够正确地对大气质量进行识别。  相似文献   

19.
张志平  汪庆淼 《计算机工程》2010,36(23):139-141,145
根据隐马尔可夫模型(HMM)适用于处理连续动态序列信号、支持向量机(SVM)与K近邻分类器(KNN)擅长模式分类的特点,设计一种(HMM+KNN)+SVM的混合分类器。利用HMM与KNN对测试样本进行判决。当判决结果相同时,直接输出判决结果,否则引入SVM对测试样本进行再判决。实验结果表明,该方法所确定的分类器优于单一的分类器判决,能有效实现表情识别。  相似文献   

20.
传统分类器的构建需要正样本和负样本两类数据。在遥感影像分类中,常出现这样一类情形:感兴趣的地物只有一种。由于标记样本耗时耗力,未标记样本往往容易获取并且包含有用信息,鉴于此,提出了一种基于正样本和未标记样本的遥感图像分类方法(PUL)。首先,根据正样本固有特征并结合支持向量数据描述(SVDD)从未标记集筛选出可信正负样本,再将其从未标记集中剔除;接着将其带入SVM训练,根据未标记集在分类器中的表现设立阈值,再从未标记集中筛选出相对可靠的正负样本;最后是加权SVM(Weighted SVM)过程,初始正样本及提取出的可靠正负样本权重为1,SVM训练筛选出的样本权重范围0~1。为验证PUL的有效性,在遥感影像进行分类实验,并与单类支持向量机(OC-SVM)、高斯数据描述(GDD)、支持向量数据描述(SVDD)、有偏SVM(Biased SVM)以及多类SVM分类对比,实验结果表明PUL提高了分类效果,优于上述单类分类方法及多类SVM方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号