首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALSMOTE。由于主动学习支持向量机采用基于距离的主动选择最佳样本的学习策略,因此能够主动选择非均衡数据中的有价值的多数类样本,舍弃价值较小的样本,从而提高运算效率,改进SMOTE带来的问题。首先运用SMOTE方法均衡小部分样本,得到初始分类器;然后利用主动学习策略调整分类器精度。实验结果表明,该方法有效提高了非均衡数据的分类准确率。  相似文献   

2.
基于平均期望间隔的多标签分类主动学习方法   总被引:1,自引:0,他引:1       下载免费PDF全文
刘端阳  邱卫杰 《计算机工程》2011,37(15):168-170
针对多标签主动学习速度较慢的问题,提出一种基于平均期望间隔的多标签分类的主动学习方法。计算支持向量机分类器中的期望间隔,并将其作为样本选择标准。实验结果表明,该方法在分类精度、Hamming Loss、Coverage等评价标准上优于基于决策值和后验概率等主动学习策略,能更好地评价未标记样本,有效提高分类精度和速度。  相似文献   

3.
基于主动学习支持向量机的文本分类   总被引:2,自引:0,他引:2       下载免费PDF全文
提出基于主动学习支持向量机的文本分类方法,首先采用向量空间模型(VSM)对文本特征进行提取,使用互信息对文本特征进行降维,然后提出主动学习算法对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。  相似文献   

4.
基于支持向量机方法的中文组织机构名的识别*   总被引:2,自引:1,他引:1  
在应用基本的支持向量机算法的基础上,提出了一种分步递增式学习的方法,利用主动学习的策略对训练样本进行选择,逐步增大提交给学习器训练样本的规模,以提高学习器的识别精度.实验表明,采用主动学习策略的支持向量机算法是有效的,在实验中,中文机构名识别的正确率和召回率分别达到了81.7%和86.8%.  相似文献   

5.
支持向量机是最有效的分类技术之一,具有很高的分类精度和良好的泛化能力,但其应用于大型数据集时的训练过程还是非常复杂。对此提出了一种基于单类支持向量机的分类方法。采用随机选择算法来约简训练集,以达到提高训练速度的目的;同时,通过恢复超球体交集中样本在原始数据中的邻域来保证支持向量机的分类精度。实验证明,该方法能在较大程度上减小计算复杂度,从而提高大型数据集中的训练速度。  相似文献   

6.
改进的概率选择主动支持向量机算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对大多数主动学习支持向量机(ASVM)的主动学习策略只注重考察超平面附近的样本,忽略了有些距离超平面远但是支持向量的样本,而且没有考虑当前超平面是否接近实际的超平面。提出一种基于概率的主动支持向量机算法,采用一个置信因子来衡量当前的超平面接近实际的超平面的程度。实验结果都验证了该算法在分类精度与计算量方面都有了较大改进。  相似文献   

7.
e-Learning这种能满足个性化、适应性学习要求的重要学习方式,要求能协作感知学习者的学习情况,能依据学习情况自动推送个性化学习资源-将支持向量机这种机器学习方法应用到e-Learning中,并结合e-Learning系统的应用情况,对于学习样本的选取和预处理,以及支持向量机训练算法等进行了应用研究.解决了学习者学习情况评价分类,根据分类结果实现个性化学习资源的主动推送问题.  相似文献   

8.
针对基于支持向量机的Web文本分类效率低的问题,提出了一种基于支持向量机Web文本的快速增量分类FVI-SVM算法。算法保留增量训练集中违反KKT条件的Web文本特征向量,克服了Web文本训练集规模巨大,造成支持向量机训练效率低的缺点。算法通过计算支持向量的共享最近邻相似度,去除冗余支持向量,克服了在增量学习过程中不断加入相似文本特征向量而导致增量学习的训练时间消耗加大、分类效率下降的问题。实验结果表明,该方法在保证分类精度的前提下,有效提高了支持向量机的训练效率和分类效率。  相似文献   

9.
基于SVM主动学习算法的网络钓鱼检测系统   总被引:1,自引:0,他引:1       下载免费PDF全文
针对钓鱼式网络攻击,从URL入手,对网址URL和Web页面内容综合特征进行识别、分类,实现网络钓鱼检测并保证检测的效率和精度.用支持向量机主动学习算法和适合小样本集的分类模型提高分类性能.实验结果证明,网络钓鱼检测系统能达到较高的检测精度.  相似文献   

10.
针对支持向量机(Support vector machines,SVMs)中大规模样本集训练速度慢且分类精度易受野点影响的问题,提出一个基于样本几何信息的支持向量机算法.其基本步骤是,首先分别求取每类样本点的壳向量和中心向量,然后将求出的壳向量作为新的训练集进行标准的SVM训练得到超平面的法向量,最后利用中心向量来更新法向量从而减少野点的影响得到最终的分类器.实验表明,采用这种学习策略,不仅加快了训练速度,而且在一般情况下也提高了分类精度.  相似文献   

11.
为验证理论训练数量(10~30 p)对参数分类器(如最大似然分类)、非参数分类器(如支撑向量机)的适用性以及样本特征(光谱统计、空间分布特征)对分类器分类精度的影响,选择不同规模的训练样本进行最大似然分类和支撑向量机分类,分析分类精度与样本之间的关系。实验结果表明:随着样本量的增加,最大似然、支撑向量机分类精度均随样本量增多而提高并趋于稳定,最大似然分类精度的增长速度要快于支撑向量机。MLC受样本量的影响较大,在小样本的时候(5个),分类精度不稳定,超过30个样本的时候,分类精度稳定下来;对于SVM分类器,在小样本的时候(5个),分类精度较高且稳定,因此SVM分类适合于小样本分类,不受限于理论样本量的影响。当样本量超过最小理论样本量值(30个)的时候,最大似然分类精度要优于支撑向量机,主要是由于当样本量增加后,最大似然更易于获得有效的信息量样本,而对于支撑向量机边缘信息样本的增加数量不大。研究结果为进一步优化样本进行分类打下前期的实验基础。  相似文献   

12.
Gender recognition has been playing a very important role in various applications such as human–computer interaction, surveillance, and security. Nonlinear support vector machines (SVMs) were investigated for the identification of gender using the Face Recognition Technology (FERET) image face database. It was shown that SVM classifiers outperform the traditional pattern classifiers (linear, quadratic, Fisher linear discriminant, and nearest neighbour). In this context, this paper aims to improve the SVM classification accuracy in the gender classification system and propose new models for a better performance. We have evaluated different SVM learning algorithms; the SVM‐radial basis function with a 5% outlier fraction outperformed other SVM classifiers. We have examined the effectiveness of different feature selection methods. AdaBoost performs better than the other feature selection methods in selecting the most discriminating features. We have proposed two classification methods that focus on training subsets of images among the training images. Method 1 combines the outcome of different classifiers based on different image subsets, whereas method 2 is based on clustering the training data and building a classifier for each cluster. Experimental results showed that both methods have increased the classification accuracy.  相似文献   

13.
属性抽取可分为对齐和语义标注两个过程,现有对齐方法中部分含有相同标签不同语义的属性会错分到同一个组,而且为了提高语义标注的精度,通常需要大量的人工标注训练集.为此,文中提出结合主动学习的多记录网页属性抽取方法.针对属性错分问题,引入属性的浅层语义,减少相同标签语义不一致的影响.在语义标注阶段,基于网页的文本、视觉和全局特征,采用基于主动学习的SVM分类方法获得带有语义的结构化数据.同时在主动学习的策略选择方面,通过引入样本整体信息,构建基于不确定性度量的策略,选择语义分类预测不准的样本进行标注.实验表明,在论坛、微博等多个数据集上,相比现有方法,文中方法抽取效果更好.  相似文献   

14.
Support vector machine (SVM) is a novel pattern classification method that is valuable in many applications. Kernel parameter setting in the SVM training process, along with the feature selection, significantly affects classification accuracy. The objective of this study is to obtain the better parameter values while also finding a subset of features that does not degrade the SVM classification accuracy. This study develops a simulated annealing (SA) approach for parameter determination and feature selection in the SVM, termed SA-SVM.To measure the proposed SA-SVM approach, several datasets in UCI machine learning repository are adopted to calculate the classification accuracy rate. The proposed approach was compared with grid search which is a conventional method of performing parameter setting, and various other methods. Experimental results indicate that the classification accuracy rates of the proposed approach exceed those of grid search and other approaches. The SA-SVM is thus useful for parameter determination and feature selection in the SVM.  相似文献   

15.
针对现有的主动学习算法在多分类器应用中存在准确率低、速度慢等问题,将基于仿射传播(AP)聚类的主动学习算法引入到多分类支持向量机中,每次迭代主动选择最有利于改善多类SVM分类器性能的N个新样本点添加到训练样本点中进行学习,使得在花费较小标注代价情况下,能够获得较高的分类性能。在多个不同数据集上的实验结果表明,新方法能够有效地减少分类器训练时所需的人工标注样本点的数量,并获得较高的准确率和较好的鲁棒性。  相似文献   

16.
Accurate and timely traffic classification is critical in network security monitoring and traffic engineering. Traditional methods based on port numbers and protocols have proven to be ineffective in terms of dynamic port allocation and packet encapsulation. The signature matching methods, on the other hand, require a known signature set and processing of packet payload, can only handle the signatures of a limited number of IP packets in real-time. A machine learning method based on SVM (supporting vector machine) is proposed in this paper for accurate Internet traffic classification. The method classifies the Internet traffic into broad application categories according to the network flow parameters obtained from the packet headers. An optimized feature set is obtained via multiple classifier selection methods. Experimental results using traffic from campus backbone show that an accuracy of 99.42% is achieved with the regular biased training and testing samples. An accuracy of 97.17% is achieved when un-biased training and testing samples are used with the same feature set. Furthermore, as all the feature parameters are computable from the packet headers, the proposed method is also applicable to encrypted network traffic.  相似文献   

17.
In conjunction with the advance in computer technology, virtual screening of small molecules has been started to use in drug discovery. Since there are thousands of compounds in early-phase of drug discovery, a fast classification method, which can distinguish between active and inactive molecules, can be used for screening large compound collections. In this study, we used Support Vector Machines (SVM) for this type of classification task. SVM is a powerful classification tool that is becoming increasingly popular in various machine-learning applications. The data sets consist of 631 compounds for training set and 216 compounds for a separate test set. In data pre-processing step, the Pearson's correlation coefficient used as a filter to eliminate redundant features. After application of the correlation filter, a single SVM has been applied to this reduced data set. Moreover, we have investigated the performance of SVM with different feature selection strategies, including SVM–Recursive Feature Elimination, Wrapper Method and Subset Selection. All feature selection methods generally represent better performance than a single SVM while Subset Selection outperforms other feature selection methods. We have tested SVM as a classification tool in a real-life drug discovery problem and our results revealed that it could be a useful method for classification task in early-phase of drug discovery.  相似文献   

18.
徐海龙 《控制与决策》2010,25(2):282-286
针对SVM训练学习过程中难以获得大量带有类标注样本的问题,提出一种基于距离比值不确定性抽样的主动SVM增量训练算法(DRB-ASVM),并将其应用于SVM增量训练.实验结果表明,在保证不影响分类精度的情况下,应用主动学习策略的SVM选择的标记样本数量大大低于随机选择的标记样本数量,从而降低了标记的工作量或代价,并且提高了训练速度.  相似文献   

19.
基于监督学习的中文情感分类技术比较研究   总被引:6,自引:0,他引:6  
情感分类是一项具有较大实用价值的分类技术,它可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。目前针对中文情感分类的研究相对较少,其中各种有监督学习方法的分类效果以及文本特征表示方法和特征选择机制等因素对分类性能的影响更是亟待研究的问题。本文以n-gram以及名词、动词、形容词、副词作为不同的文本表示特征,以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法,以中心向量法、KNN、Winnow、Nave Bayes和SVM作为不同的文本分类方法,在不同的特征数量和不同规模的训练集情况下,分别进行了中文情感分类实验,并对实验结果进行了比较,对比结果表明: 采用BiGrams特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的情况下,情感分类能取得较好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号