首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
一种用于文本分类的语义SVM及其在线学习算法   总被引:2,自引:1,他引:1  
该文利用SVM在小训练样本集条件下仍有高泛化能力的特性,结合文本分类问题中同类别文本的特征在特征空间中具有聚类性分布的特点,提出一种使用语义中心集代替原训练样本集作为训练样本和支持向量的SVM:语义SVM。文中给出语义中心集的生成步骤,进而给出语义SVM的在线学习(在线分类知识积累)算法框架,以及基于SMO算法的在线学习算法的实现。实验结果说明语义SVM及其在线学习算法具有巨大的应用潜力:不仅在线学习速度和分类速度相对于标准SVM及其简单增量算法有数量级提高,而且分类准确率方面具有一定优势。  相似文献   

2.
SVM增量学习算法研究   总被引:1,自引:0,他引:1  
SVM是在模式分类中表现优秀的一种分类方法。通过对现有SVM的两种增量算法的分析,给出了改进措施,在此基础上结合类加权思想.提出了一种新的加权增量SVM学习算法。并将其应用于Web文本分类中。  相似文献   

3.
一种改进的SVM文本分类算法   总被引:2,自引:0,他引:2  
在研究基于支持向量机进行文本分类一般步骤的基础上,针对Key-Substring-Group文本分类算法存在非线性支持向量机对核函数和参数C的强依赖的问题,用欧氏距离代替支持向量机训练得到的分类决策面进行分类决策,对文本分类算法进行改进。通过对比试验,发现分类效果不会随着核函数及参数C的变化而有明显的波动。  相似文献   

4.
基于SVM文本分类中的关键词学习研究   总被引:4,自引:0,他引:4  
孙晋文  肖建国 《计算机科学》2006,33(11):182-184
文本分类中分类方法与关键词是两个重要的因素,支持向量机作为一种良好的分类方法,在文本分类中表现出很好的性能。本文以支持向量机为基础,重点研究其分类过程中关键词的学习问题,在其增量分类中,同步进行关键词的增量学习调整,实验结果表明,该方法可以更好地提高文本分类的分类性能。  相似文献   

5.
基于SVM算法的文本分类技术研究   总被引:9,自引:0,他引:9  
在优化分类技术的研究中,文本特征化后通常具有高维性和不平衡性的特点,导致传统的分类算法准确率不高的问题.针对文本分类器的性能容易受到核函数和参数的影响的问题,为提高文本分类器的准确性.采用支持向量机(SVM)的理论在文本分类技术同时将根据优化的粒子群算法(PSO)引入SVM分类算法中进行优化文本分类器的参数,将分类器的准确率作为PSO算法适应度函数通过粒子移动操作找出最佳参数并用SVM算法进行分类.在文本数据集上的仿真结果表明,与传统的算法相比,经PSO算法优化后的SVM文本分类器的准确性更高,PSO算法是一种有效的优化方法,能广泛应用于文本分类问题.  相似文献   

6.
一种新的SVM对等增量学习算法   总被引:11,自引:0,他引:11  
在分析支持向量机(SVM)寻优问题的KKT条件和样本分布之间关系的基础上,分析了新增样本的加入对SV集的影响,定义了广义KKT条件。基于原训练样本集和新增训练样本集在增量训练中地位等同,提出了一种新的SVM增量学习算法。算法在及时淘汰对后继分类影响不大的样本的同时保留了含有重要分类信息的样本。对标准数据集的实验结果表明,算法获得了较好的性能。  相似文献   

7.
SVM是在模式分类中表现优秀的一种分类方法。通过对现有SVM的两种增量算法的分析,给出了改进措施,在此基础上结合类加权思想,提出了一种新的加权增量SVM学习算法。并将其应用于Web文本分类中。  相似文献   

8.
一种SVM增量学习算法α-ISVM   总被引:56,自引:0,他引:56       下载免费PDF全文
萧嵘  王继成  孙正兴  张福炎 《软件学报》2001,12(12):1818-1824
基于SVM(support vector machine)理论的分类算法,由于其完善的理论基础和良好的试验结果,目前已逐渐引起国内外研究者的关注.深入分析了SVM理论中SV(support vector,支持向量)集的特点,给出一种简单的SVM增量学习算法.在此基础上,进一步提出了一种基于遗忘因子α的SVM增量学习改进算法α-ISVM.该算法通过在增量学习中逐步积累样本的空间分布知识,使得对样本进行有选择地遗忘成为可能.理论分析和实验结果表明,该算法能在保证分类精度的同时,有效地提高训练速度并降低存储空间的占用.  相似文献   

9.
一种基于紧密度的半监督文本分类方法   总被引:2,自引:0,他引:2  
自动的文本分类已经成为一个重要的研究课题。在实际的应用情况下,很多训练语料都只有一个数目有限的正例集合,同时语料中的正例和未标注文档在数量上的分布通常也是不均衡的。因此这种文本分类任务有着不同于传统的文本分类任务的特点,传统的文本分类器如果直接应用到这类问题上,也难以取得令人满意的效果。因此,本文提出了一种基于紧密度衡量的方法来解决这一类问题。由于没有标注出来的负例文档,所以,本文先提取出一些可信的负例,然后再根据紧密度衡量对提取出的负例集合进行扩展,进而得到包含正负例的训练集合,从而提高分类器的性能。该方法不需要借助特别的外部知识库来对特征提取,因此能够比较好的应用到各个不同的分类环境中。在TREC’05(国际文本检索会议)的基因项目的文本分类任务语料上的实验表明,该算法在解决半监督文本分类问题中取得了优异的成绩。  相似文献   

10.
姜鹤  陈丽亚 《微机发展》2010,(3):17-19,23
随着互联网的迅速发展,面向重要网络媒体海量发布信息实现智能分类,对于网络信息监管、舆论引导工作有着深远的意义。文中针对在文本分类中的特征选取问题,描述了一种基于法矢量权重的特征评价和选取方法。将此方法与SVM学习算法进行结合,在路透社标准文本测试集上进行了对比评估。实验结果显示,此特征选取方法相对于传统的特征选取方法可以产生更优的分类性能。此特征提取方法提供一种有效的途径,在基本保持分类器性能的前提下显著地减少特征空间的维数,进而提升系统的资源利用效率。  相似文献   

11.
基于非线性流形学习和支持向量机的文本分类算法   总被引:1,自引:1,他引:1  
为解决文本自动分类问题,提出一种流形学习和支持向量机相结合的文本分类算法(LLE-LSSVM)。LLE-LSSVM算法利用非线性流形学习算法LEE对高维文本特征进行非线性降维,挖掘出特征内在规律与本征信息,从而得到低维特征空间,然后将其输入到LSSVM中进行学习,同时利用混沌粒子群算法对LSSVM参数进行优化,建立文本分类模型。仿真实验结果表明,LLE-LSSVM算法提高了文本分类准确率,减少了分类运行时间,是一种有效的文本分类算法。  相似文献   

12.
回归支持向量机的改进序列最小优化学习算法   总被引:20,自引:1,他引:20  
张浩然  韩正之 《软件学报》2003,14(12):2006-2013
支持向量机(support vector machine,简称SVM)是一种基于结构风险最小化原理的学习技术,也是一种新的具有很好泛化性能的回归方法,提出了实现回归支持向量机的一种改进的SMO(sequential minimal optimization)算法,给出了两变量子优化问题的解析解,设计了新的工作集选择方法和停止条件,仿真实例说明,所提出的SMO算法比原始SMO算法具有更快的运算速度.  相似文献   

13.
已有文献中的支持向量机SMO算法推导过程计算复杂,该文给出一个简洁推导。整个推导过程没有复杂的计算,除了误差函数外,不需引入其它中间变量。  相似文献   

14.
This paper presents a novel active learning approach for transductive support vector machines with applications to text classification. The concept of the centroid of the support vectors is proposed so that the selective sampling based on measuring the distance from the unlabeled samples to the centroid is feasible and simple to compute. With additional hypothesis, active learning offers better performance with comparison to regular inductive SVMs and transductive SVMs with random sampling,and it is even competitive to transductive SVMs on all available training data. Experimental results prove that our approach is efficient and easy to implement.  相似文献   

15.
The choice of the kernel function is crucial to most applications of support vector machines. In this paper, however, we show that in the case of text classification, term-frequency transformations have a larger impact on the performance of SVM than the kernel itself. We discuss the role of importance-weights (e.g. document frequency and redundancy), which is not yet fully understood in the light of model complexity and calculation cost, and we show that time consuming lemmatization or stemming can be avoided even when classifying a highly inflectional language like German.  相似文献   

16.
针对半监督学习中渐进直推支持向量机(PTSVM)算法每次标注的样本数太少、训练速度慢、回溯式学习多、学习性能不稳定的问题,提出一种快速的渐进直推支持向量机学习算法.该算法利用支持向量的信息,基于支持向量域描述(SVDD)选择新标注、无标签的样本点,以区域标注法代替PTSVM的成对标注法,不仅继承了其渐进赋值和动态调整的规则,而且在保持甚至提高算法精度的同时,大大提高算法速度.在人工模拟数据和真实数据上的实验结果表明该算法的有效性.  相似文献   

17.
最小二乘双支持向量机的在线学习算法   总被引:1,自引:0,他引:1  
针对具有两个非并行分类超平面的最小二乘双支持向量机,提出了一种在线学习算法。通过利用矩阵求逆分解引理,所提在线学习算法能充分利用历史的训练结果,避免了大型矩阵的求逆计算过程,从而降低了计算的复杂性。仿真结果验证了所提学习算法的有效性。  相似文献   

18.
一种基于向量夹角的k近邻多标记文本分类算法   总被引:2,自引:1,他引:1  
广凯  潘金贵 《计算机科学》2008,35(4):205-206
在多标记学习中,一个示例可以有多个概念标记.学习系统的目标是通过对由多标记样本组成的训练集进行学习,以尽可能正确地预测未知样本所对应的概念标记集.k近邻算法已被应用到多标记学习中,该算法将测试示例转化为多维向量,根据其k个近邻样本的标记向量来确定该测试示例的标记向量.传统的k近邻算法是基于向量的空间距离来选取近邻,而在自然语言处理中,文本间的相似度常用文本向量的夹角来表示,所以本文将文本向量间的夹角关系作为选取k近邻的标准并结合k近邻算法提出了一种多标记文本学习算法.实验表明,该算法在文档分类的准确率上体现出较好的性能.  相似文献   

19.
1.引言包括感知器、神经网络等在内的学习方法都是基于经验风险最小(ERM)原则的,而在实际的基于小样本的学习系统中,这些学习方法在经验风险最小的情况下并不能保证期望风险最小化。对于线性不可分情况不能给出是否分段线性可分的可靠信息。如果简单地引入非线性变换,则容易导致过学习现象。这显然不是我们所希望的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号