首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
在基于微博数据训练分类模型的过程当中,我们可以通过主动学习有效的减少需标注数据的数据量,SVM主动学习算法是主动学习中相当著名的算法,但是该算法还存在缺陷,就是没有对微博数据内容多样的特点进行充分考虑,因此在本文中作者提出了一种新的基于支持向量机(SVM)的主动学习算法,该算法通过未标注样本点与所有已标注样本点之间的余弦相似度之和来度量未标注样本与所有已标注样本点之间的相似性,通过选择与已选择的所有样本不相似的样本点进行标注就可以实现对于数据多样性的充分考虑;另外,为了避免太大的余弦相似度值对于余弦相似度之和的影响,该算法通过一种设置阈值的方法来使得被选择样本的最小余弦相似度尽可能大;除此之外,为了选择最佳的样本进行标注,在算法中我们在考虑数据多样性的同时也对样本点和分类超平面之间的距离进行了考虑。  相似文献   

2.
基于最小二乘支持向量机的网页主题语义分类的研究   总被引:1,自引:0,他引:1  
提出了对网页主题进行语义扩展的方法,利用最小二乘支持向量机LSSVM(least squares support vector machines)来代替传统的支持向量机SVM(support vector machine)的分类技术。在建立LSSVM模型的多类别分类算法基础上,将其应用到网页主题语义分类。实验表明,最小二乘支持向量机学习速度快,在小样本情况下具有良好的非线性建模和泛化能力,对网页主题语义分类具有很好的效果。  相似文献   

3.
针对传统支持向量机(Support Vector Machine,SVM)方法不能有效处理海量数据分类的问题,本文提出一种基于并行计算(Parallel Computing,PC)的支持向量机加速(Speeding support vector machine based on parallel computing,PC_SVM)方法。该方法首先将海量的训练样本通过聚类方式划分为多个独立的工作子集,并在每个工作子集上并行进行SVM的自适应训练,以得到适应该训练子集的SVM学习模型,通过衡量不同子集训练结果的关系,对每个工作集中聚类得到的子类进行合并,从而有效处理海量数据的分类问题。实验结果表明,PC_SVM方法在大规模数据集上在保持分类效果的同时大幅度提高了传统SVM的分类效率。  相似文献   

4.
针对标准支持向量机方法需要存储、计算和处理核矩阵而学习效率很低,不能有效处理较大规模数据挖掘的问题,提出一种基于近邻边缘检测的支持向量机方法 (SVM Method Based on Neighbor Edge Detection, ED_SVM)。该方法将近邻边缘检测技术引入SVM的训练过程,即首先对数据进行划分,选择混合类样本,通过边缘检测技术提取其中位于近似最优分类边界附近的含有较多重要支持向量信息的样本,构成新的小规模训练集,以在压缩训练集的同时保持原始支持向量信息的分布特性;并在新构成的训练集上训练标准SVM,在提高SVM学习效率的同时得到优秀的泛化性能。实验结果表明,本文提出的ED_SVM方法能够同时获得较高的测试精度和学习效率。  相似文献   

5.
为解决监督学习过程中难以获得大量带有类标记样本且样本数据标记代价较高的问题,结合主动学习和半监督学习方法,提出基于Tri-training半监督学习和凸壳向量的SVM主动学习算法.通过计算样本集的壳向量,选择最有可能成为支持向量的壳向量进行标记.为解决以往主动学习算法在选择最富有信息量的样本标记后,不再进一步利用未标记样本的问题,将Tri-training半监督学习方法引入SVM主动学习过程,选择类标记置信度高的未标记样本加入训练样本集,利用未标记样本集中有利于学习器的信息.在UCI数据集上的实验表明,文中算法在标记样本较少时获得分类准确率较高和泛化性能较好的SVM分类器,降低SVM训练学习的样本标记代价.  相似文献   

6.
针对支持向量机(Support Vector Machine,SVM)处理大规模数据集的学习时间长、泛化能力下降等问题,提出基于边界样本选择的支持向量机加速算法。首先,进行无监督的K均值聚类;然后,在各个聚簇内依照簇的混合度、支持度因素应用K近邻算法剔除非边界样本,获得最终的类别边界区域样本,参与SVM模型训练。在标准数据集上的实验结果表明,算法在保持传统支持向量机的分类泛化能力的同时,显著降低了模型训练时间。  相似文献   

7.
方辉 《福建电脑》2009,25(4):84-84
支持向量机(support vector machine,SVM)是在统计学习理论基础上发展起来的一种新的数据挖掘方法,并已广泛应用于模式识别与回归分析等领域。本文重点阐述了一些典型的支持向量机多分类算法及支持向量机多标注算法。最后指出了进一步研究和亟待解决的一些问题。  相似文献   

8.
针对支持向量机(Support vector machines,SVMs)中大规模样本集训练速度慢且分类精度易受野点影响的问题,提出一个基于样本几何信息的支持向量机算法.其基本步骤是,首先分别求取每类样本点的壳向量和中心向量,然后将求出的壳向量作为新的训练集进行标准的SVM训练得到超平面的法向量,最后利用中心向量来更新法向量从而减少野点的影响得到最终的分类器.实验表明,采用这种学习策略,不仅加快了训练速度,而且在一般情况下也提高了分类精度.  相似文献   

9.
支持向量机(SVM)作为一种有效的模式分类方法,当数据集规模较大时,学习时间长、泛化能力下降;而核向量机(CVM)分类算法的时间复杂度与样本规模无关,但随着支持向量的增加,CVM的学习时间会快速增长。针对以上问题,提出一种CVM与SVM相结合的二阶段快速学习算法(CCS),首先使用CVM初步训练样本,基于最小包围球(MEB)筛选出潜在核向量,构建新的最有可能影响问题解的训练样本,以此降低样本规模,并使用标记方法快速提取新样本;然后对得到的新训练样本使用SVM进行训练。通过在6个数据集上与SVM和CVM进行比较,实验结果表明,CCS在保持分类精度的同时训练时间平均减少了30%以上,是一种有效的大规模分类学习算法。  相似文献   

10.
支持向量机(Support vector machine,SVM)作为一种经典的分类方法,已经广泛应用于各种领域中。然而,标准支持向量机在分类决策中面临以下问题:(1)未考虑分类数据的分布特征;(2)忽略了样本类别间的相对关系;(3)无法解决大规模分类问题。鉴于此,提出融合数据分布特征的保序学习机(Rank preservation learning machine based on data distribution fusion, RPLM-DDF)。该方法通过引入类内离散度表征数据的分布特征;通过各类样本数据中心位置相对不变保证全局样本顺序不变;通过建立所提方法和核心向量机对偶形式的等价性解决了大规模分类问题。在人工数据集、中小规模数据集和大规模数据集上的比较实验验证所提方法的有效性。  相似文献   

11.
基于支持向量机的船舶结构可靠性分析   总被引:1,自引:0,他引:1  
在双参数Weibull分布模型的参数预测中应用支持向量机技术,提出了基于支持向量机的船舶结构可靠性分析方法。将标准化预处理后的小子样学习样本输入以径向基函数为核函数的支持向量机中,建立预测参数与预测结果之间的映射关系,从而提高船舶结构可靠性分析精度。该方法计算效率高,对含有大量随机变量的船舶结构可靠性分析实用可靠,具有较高的工程实用价值和广泛的应用前景。  相似文献   

12.
针对v-支持向量机在样本集规模较大的情况下,需要占用大量训练时间的问题,提出基于粗糙集边界的v-支持向量机混合分类算法。该算法根据粗糙集理论边界区域的优点,生成分类数据的边界集,使其包括全部的支持向量,用此边界向量集替代原始样本作为训练集,减少训练集的数量,则可以在不影响分类精度和泛化性能的前提下显著缩短v-支持向量机的训练时间。仿真结果表明该算法的有效性。  相似文献   

13.
支持向量机是基于统计学习理论的新一代机器学习技术;由于使用结构风险最小化原则代替经验风险最小化原则,使它较好地解决了小样本情况下的学习问题;针对目前模糊支持向量机方法中,一般使用样本与类中心之间的距离关系构建隶属度函数的不足,以统计学习理论和支持向量机为基础,提出了一种改进的模糊多类支持向量机方法,它是在全局优化分类的基础上,引入模糊隶属函数,然后利用改进的序列最小最优化算法求解模糊多类支持向量机,实验结果显示运行时间减少了,方法是可行的和有效的.  相似文献   

14.
支持向量机算法(SVM)具有可靠的全局最优性和良好的泛化能力,适用于有限样本的学习,而该算法的成功与否很大程度上取决于其参数的选择,而常规经验选取方法往往不能获得满意效果。利用粒子群算法(PSO)随机搜索策略对支持向量机参数进行优选,建立基于粒子群算法参数优化的支持向量机模型(PSO-SVM)。仿真结果表明,该优化模型比传统的人工神经网络(BP)模拟效果要好,在拟合精度方面有很大的提高,且具有较好的泛化能力。  相似文献   

15.
陶剑文  王士同 《控制与决策》2012,27(10):1510-1515
针对传统支持向量机不能较好地利用数据空间局部信息的问题,提出一种基于局部学习的支持向量机.通过同时最小化局部内散度和最大化局部间散度信息来寻求一个最优的分类决策函数.为了更好地反映数据的局部几何特征,该方法采用适于局部学习的测地线距离来度量数据点对间的相似性.另外,通过引入一个能同时控制间隔误差上界和支持向量下界的参数μ,进一步提升学习泛化能力.人造和实际数据集实验验证了所提出方法的有效性.  相似文献   

16.
This paper proposes a machine learning based method which can detect certain events automatically and precisely in biomedical imaging. We detect one important and not well-defined event, which is called flash, in fluorescence images of Escherichia coli. Given a time series of images, first we propose a scheme to transform the event detection on region of interest (ROI) in images to a classification problem. Then with supervised human labeling data, we develop a feature selection technique to utilize support vector machine (SVM) to solve this classification problem. To reduce the time in training SVM model, a parallel version of SVM training is implemented. On ten stacks of fluorescence images labeled by experts, each of which owns one hundred 512 ·512 images with in total 4906 ROIs and 72056 labeled events, event detection with proposed method takes 19 seconds, while human labeling roughly costs 60 hours. With human labeling as the standard, the accuracy of our method achieves an F-value of about 0.81. This method is much faster than human detection and expects to be more precise with bigger data. It also can be expanded to a series of event detection with similar properties and improve efficiency of detection greatly.  相似文献   

17.
Support vector machine (SVM) is a general and powerful learning machine, which adopts supervised manner. However, for many practical machine learning and data mining applications, unlabeled training examples are readily available but labeled ones are very expensive to be obtained. Therefore, semi-supervised learning emerges as the times require. At present, the combination of SVM and semi-supervised learning principle such as transductive learning has attracted more and more attentions. Transductive support vector machine (TSVM) learns a large margin hyperplane classifier using labeled training data, but simultaneously force this hyperplane to be far away from the unlabeled data. TSVM might seem to be the perfect semi-supervised algorithm since it combines the powerful regularization of SVMs and a direct implementation of the clustering assumption, nevertheless its objective function is non-convex and then it is difficult to be optimized. This paper aims to solve this difficult problem. We apply least square support vector machine to implement TSVM, which can ensure that the objective function is convex and the optimization solution can then be easily found by solving a set of linear equations. Simulation results demonstrate that the proposed method can exploit unlabeled data to yield good performance effectively.  相似文献   

18.
支持向量机作为一种新的机器学习方法,由于其建立在结构风险最小化准则之上,而不是仅仅使经验风险达到最小,从而使对支持向量分类器具有较好的推广能力。本文分析了支持向量机在解决无监督分类问题上的不足,提出一种基于支持向量机思想的最大间距的聚类新方法。实验结果表明,该算法能成功地解决很多非监督分类问题。  相似文献   

19.
为提高室内定位算法定位的精度和实时性,提出一种改进的支持向量机(A-SVM)的室内指纹定位方法。利用SVM具有较好的学习和泛化能力的特点,把定位匹配转换为多分类问题。为克服SVM分类存在的片面性问题,提出基于SVM与反K近邻融合的位置指纹分类方法得到估计位置,并利用卡尔曼滤波对估计位置进行滤波处理。实验结果表明,算法有效减小了定位结果的波动性,与传统SVM相比具有较高的定位精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号