共查询到18条相似文献,搜索用时 46 毫秒
1.
文本分类是数据挖掘的基础和核心,支持向量机(SVM)是解决文本分类问题的最好算法之一。传统的支持向量机是两类分类问题,如何有效地将其推广到多类分类问题仍是一项有待研究的课题。介绍了支持向量机的基本原理,对现有主要的多类支持向量机文本分类算法进行了讨论和比较。提出了多类支持向量机文本分类中存在的问题和今后的发展。 相似文献
2.
传统的支持向量机(SVM)是两类分类问题,如何有效地将其推广到多类分类问题仍是一项有待研究的课题。本文在对现有主要的四种多类支持向量机分类算法讨论的基础上,结合文本分类的特点,详细介绍了决策树支持向量机和几种改进多类支持向量机方法在文本分类中的应用。 相似文献
3.
支持向量机多类分类方法 总被引:30,自引:0,他引:30
支持向量机本身是一个两类问题的判别方法,不能直接应用于多类问题。当前针对多类问题的支持向量机分类方法主要有5种:一类对余类法(OVR),一对一法(OVO),二叉树法(BT),纠错输出编码法和有向非循环图法。本文对这些方法进行了简单的介绍,通过对其原理和实现方法的分析,从速度和精度两方面对这些方法的优缺点进行了归纳和总结,给出了比较意见,并通过实验进行了验证,最后提出了一些改进建议。 相似文献
4.
5.
6.
支持向量机在多类分类问题中的推广 总被引:51,自引:4,他引:51
支持向量机(SVMs)最初是用以解决两类分类问题,不能直接用于多类分类,如何有效地将其推广到多类分类问题是一个正在研究的问题。该文总结了现有主要的支持向量机多类分类算法,系统地比较了各算法的训练速度、分类速度和推广能力,并分析它们的不足和有待解决的问题。 相似文献
7.
8.
9.
文本分类属于有指导的机器学习,而构造一个按照兴趣分类的分类器,需要做大量的预处理工作,来收集正负的训练样例,但负例的收集是非常困难的。提出了一个只有正例的基于支持向量机的学习模型。实验表明,该学习模型对多类文本分类的分类精度和速度都是非常理想。 相似文献
10.
支持向量机是由V.Vapnik等提出一种学习技术,借助于最优化方法解决机器学习问题的新工具,近几年得到了广泛的研究并广泛应用于模式识别等领域。本文主要介绍并比较了基于支持向量机的多类分类算法:“一对一”方法、“一对多”方法以及决策有向无环图方法,通过实验数据可以得知决策有向无环图方法具有较好的分类效果。在不同的情况下,可以采用不同的算法以达到最好的分类效果。 相似文献
11.
基于机器学习的文本分类技术的研究 总被引:1,自引:0,他引:1
基于机器学习的文本分类是近年来信息检索领域的热门研究技术,并且取得了较大进展.本文对文本分类的定义、文本表示进行了详细的阐述,介绍了SVM等一系列机器学习的文本分类方法和文本分类效果评估手段,指出了进一步的研究方向. 相似文献
12.
13.
借鉴免疫的生物学机理,本文提出了一种基于抗体浓度的克隆选择算法,该算法中抗体的选择概率由亲和度与浓度共同决定,具有高亲和度和低浓度的抗体才受到促进。该算法在文本分类领域得到了成功应用。在文本分类的应用中,抗原、B细胞和抗体分别对应训练文本、分类器的一个解和分类器的解与训练文本的亲和度,最后训练完成的分类器含有多个记忆细胞,有效保证了解的多样性。在数据集20_newsgroups上的实验结果显示,该方法的综合性能指标F1可达80.90%,优于Rocchio法与Naive Bayes法。 相似文献
14.
为了高速度、高质量地浏览网络上的大量中文文本,提出了一种文本凹凸树结构的可视化浏览机制,并给出其彤式描述.通过以关键字和概念词典标注的最小概念集标识结点建立文本分类的层次树结构,为用户快速洲览文本提供有效路径.通过统计方法进行文本摘要抽取,按大纲、逻辑主题词段落和摘要洲览文本内容,提高了搜索查询速度与阅读效率,满足了用户快速、主动浏览文本的需求. 相似文献
15.
基于改进TFIDF算法的文本分类研究 总被引:1,自引:0,他引:1
由于文本分类在信息检索、邮件过滤、网页分类、个性化推荐等领域有着广泛的应用价值,所以自文本分类的概念提出以来,受到了学者们的广泛关注。在文本分类的研究中,学者们运用了很多方法,其中TFIDF是文档特征权重计算的最常用算法之一,但是传统的TFID算法忽略了特征项在类内和类间的分布,导致很多区分度不大的特征项被赋予了较大的权重。针对传统TFIDF算法的不足,本文在IDF的计算过程中,用词条在类内与类间的文档占比来考虑词条在类内与类间的分布。在实验中,用改进的权重算法表示文本向量,通过考察分类的效果,验证了改进算法的有效性。 相似文献
16.
文本自动分类技术在提高文本信息利用的有效性和准确性上具有重要的现实意义和广阔的应用前景。随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型表示下的高维性,本文采用词干提取和χ2统计量相结合的方法对表示空间进行降维。采用SVM算法构造了维吾尔文文本分类器。针对维吾尔文文本分类语料进行的实验结果表明,SVM分类器的MacroF1值达到了84.6%,明显好于kNN方法。 相似文献
17.
基于数据挖掘的文本自动分类仿真研究 总被引:1,自引:0,他引:1
研究文本分类优化问题,文本是一种半结构化形式,特征数常高达几万,特征互相关联、冗余比较严重,影响分类的准确性.传统分类方法难以获得高正确率.为了提高文本自动分类正确率,提出了一种数据挖掘技术的文本自动分类方法.利用支持向量机对于特征相关性和稀疏性不敏感,能很好处理高维数问题的优点对单词对分类的贡献值进行计算,将对分类贡献相近单词合并成文本向量的一个特征项,采用支持向量机对特征项进行学习和分类.用文本分类库数据进行测试,结果表明,数据挖掘技术的分类方法,不仅加快了文本分类速度,同时提高文本分类准确率. 相似文献
18.
基于SVM算法的文本分类技术研究 总被引:9,自引:0,他引:9
在优化分类技术的研究中,文本特征化后通常具有高维性和不平衡性的特点,导致传统的分类算法准确率不高的问题.针对文本分类器的性能容易受到核函数和参数的影响的问题,为提高文本分类器的准确性.采用支持向量机(SVM)的理论在文本分类技术同时将根据优化的粒子群算法(PSO)引入SVM分类算法中进行优化文本分类器的参数,将分类器的准确率作为PSO算法适应度函数通过粒子移动操作找出最佳参数并用SVM算法进行分类.在文本数据集上的仿真结果表明,与传统的算法相比,经PSO算法优化后的SVM文本分类器的准确性更高,PSO算法是一种有效的优化方法,能广泛应用于文本分类问题. 相似文献