首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 83 毫秒
1.
张苗  张德贤 《微机发展》2008,18(3):139-141
文本分类是数据挖掘的基础和核心,支持向量机(SVM)是解决文本分类问题的最好算法之一。传统的支持向量机是两类分类问题,如何有效地将其推广到多类分类问题仍是一项有待研究的课题。介绍了支持向量机的基本原理,对现有主要的多类支持向量机文本分类算法进行了讨论和比较。提出了多类支持向量机文本分类中存在的问题和今后的发展。  相似文献   

2.
多类支持向量机文本分类方法   总被引:5,自引:3,他引:5  
文本分类是数据挖掘的基础和核心,支持向量机(SVM)是解决文本分类问题的最好算法之一.传统的支持向量机是两类分类问题,如何有效地将其推广到多类分类问题仍是一项有待研究的课题.介绍了支持向量机的基本原理,对现有主要的多类支持向量机文本分类算法进行了讨论和比较.提出了多类支持向量机文本分类中存在的问题和今后的发展.  相似文献   

3.
支持向量机在多类分类问题中的推广   总被引:51,自引:4,他引:51  
支持向量机(SVMs)最初是用以解决两类分类问题,不能直接用于多类分类,如何有效地将其推广到多类分类问题是一个正在研究的问题。该文总结了现有主要的支持向量机多类分类算法,系统地比较了各算法的训练速度、分类速度和推广能力,并分析它们的不足和有待解决的问题。  相似文献   

4.
运用人工智能相关技术实现海量数据文本的自动化分类识别,将有限的人力从海量数据中解放出来,已成为促进工作发展的重要途径.主要运用SVM文本分类技术对数据文本进行自动筛选和智能分类,详细介绍了SVM文本分类方法的系统结构、分词、特征选择、评估方法、模型训练和分类识别的过程,并针对语料库中的大量文本进行分类实验.结果表明,该方法具有较好的分类效果.  相似文献   

5.
文本分类是文本数据挖掘的基础和核心,为解决在文本分类中二值支持向量机不能进行多类分类的问题,论文提出采用二叉树对多个二值支持向量机(SVM)子分类器进行组合,并运用聚类分析中类距离方法规范二叉树生成过程的基于二叉树的多类支持向量机(MSVM)分类算法。实验数据表明,相对于KNN 算法和朴素贝叶斯算法,基于二叉树的MSVM 算法在文本分类上更具优越性。该算法已应用于科技奖励信息检索系统中,取得了良好的效果。  相似文献   

6.
支持向量机多类分类算法研究   总被引:37,自引:4,他引:33  
提出一种新的基于二叉树结构的支持向量(SVM)多类分类算法.该算法解决了现有主要算法所存在的不可分区域问题.为了获得较高的推广能力,必须让样本分布广的类处于二叉树的上层节点,才能获得更大的划分空间.所以,该算法采用最小超立方体和最小超球体类包含作为二叉树的生成算法.实验结果表明,该算法具有一定的优越性.  相似文献   

7.
There are two well-known characteristics about text classification.One is that the dimension of the sample space is very high,while the number of examples available usually is very small.The other is that the example vectors are sparse.Meanwhile,we find existing support vector machines active learning approaches are subject to the influence of outliers.Based on these observations,this paper presents a new hybrid active learning approach.In this approach,to select the unlabelled example(s) to query,the learner takes into account both sparseness and high-di-mension characteristics of examples as well as its uncertainty about the examples‘‘ categorization.This way, the active learner needs less labeled examples,but still can get a good generalization performance more quickly than competing methods.Our empirical results indicate that this new approach is effective.  相似文献   

8.
支持向量机多类分类方法   总被引:30,自引:0,他引:30  
支持向量机本身是一个两类问题的判别方法,不能直接应用于多类问题。当前针对多类问题的支持向量机分类方法主要有5种:一类对余类法(OVR),一对一法(OVO),二叉树法(BT),纠错输出编码法和有向非循环图法。本文对这些方法进行了简单的介绍,通过对其原理和实现方法的分析,从速度和精度两方面对这些方法的优缺点进行了归纳和总结,给出了比较意见,并通过实验进行了验证,最后提出了一些改进建议。  相似文献   

9.
支持向量机在文本分类中的应用   总被引:1,自引:0,他引:1  
文中提出了基于朴素贝叶斯的支持向量机的分类方法,首先采用文本预处理,再根据文本的特征进行特征降维,然后用基于朴素贝叶斯的算法对支持向量机进行训练后,再对新的文本进行分类。实验表明,该方法比传统的SVM算法具有较高的准确率。  相似文献   

10.
该文是对当前支持向量机在文本分类上的应用进行研究。先介绍了支持向量机的基本方法.再通过对不同方法的支持向量札分类算法的比较,进行一个总体酌描述和概括开对未来发展发向做了一个预测。  相似文献   

11.
文本分类作为信息过滤、信息检索、搜索引擎、文本数据库等领域的技术基础,有着广泛的应用前景。但传统的模式识别方法在处理问题时通常需建立准确的数学模型,而且在解决非线性问题时很难有好的表现。支持向量机在维数灾难方面有很好的表现,并且在小样本数据中有良好的应用。本文集中于文本分类识别问题,并应用到电信领域,取得了满意的结果。  相似文献   

12.
支持向量机的中文文本分类研究   总被引:9,自引:0,他引:9  
支持向量机是一种基于统计学习理论的新型机器学习方法,在文本分类领域取得了很好的效果。使用支持向量机进行了文本分类的研究,实现了一个中文文本自动分类系统,并给出了实验结果。  相似文献   

13.
独立于语种的文本分类方法   总被引:40,自引:4,他引:40  
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻语料上得到实现,并获得了较好的分类性能。  相似文献   

14.
多项式核支持向量机文本分类器泛化性能分析   总被引:8,自引:0,他引:8  
VC维理论和结构风险最小化准则是统计学习理论中的重要内容,基于这一理论的支持向量机算法由于具有好的泛化性能受到重视,并被研究用于文本分类问题.基于多项式核的研究工作认为SVM的泛化能力不受多项式阶数的影响,并且能够处理很高维的分类问题,用于文本分类无需进行特征选择.研究发现,随着多项式核阶数的升高,SVM文本分类器会出现过学习现象,并且特征数越多越明显,特征选择是必需的.通过估计函数集的VC维,基于结构风险最小化理论对此问题进行分析,得出的结论跟实验结果相符.  相似文献   

15.
基于机器学习的文本分类技术的研究   总被引:1,自引:0,他引:1  
基于机器学习的文本分类是近年来信息检索领域的热门研究技术,并且取得了较大进展.本文对文本分类的定义、文本表示进行了详细的阐述,介绍了SVM等一系列机器学习的文本分类方法和文本分类效果评估手段,指出了进一步的研究方向.  相似文献   

16.
姜鹤  陈丽亚 《微机发展》2010,(3):17-19,23
随着互联网的迅速发展,面向重要网络媒体海量发布信息实现智能分类,对于网络信息监管、舆论引导工作有着深远的意义。文中针对在文本分类中的特征选取问题,描述了一种基于法矢量权重的特征评价和选取方法。将此方法与SVM学习算法进行结合,在路透社标准文本测试集上进行了对比评估。实验结果显示,此特征选取方法相对于传统的特征选取方法可以产生更优的分类性能。此特征提取方法提供一种有效的途径,在基本保持分类器性能的前提下显著地减少特征空间的维数,进而提升系统的资源利用效率。  相似文献   

17.
在文本分类研究中,向量空间模型具有表示形式简单的特点,但只能表示特征词的词频信息而忽视了特征词间的结构信息和语义语序信息,所以可能导致不同文档被表示为相同向量。针对这种问题,本文采用图结构模型表示文本,把文本表示成一个有向图(简称文本图),可有效解决结构化信息缺失的问题。本文将图核技术应用于文本分类,提出适用于文本图之间的相似度计算的图核算法--间隔通路核,然后利用支持向量机对文本进行分类。在文本集上的实验结果表明:与向量空间模型相比,间隔通路核相比于其他核函数的分类准确率更高,所以间隔通路核是一种很好的图结构相似性计算算法,能广泛应用于文本分类中。  相似文献   

18.
一种用于文本分类的语义SVM及其在线学习算法   总被引:1,自引:1,他引:1  
该文利用SVM在小训练样本集条件下仍有高泛化能力的特性,结合文本分类问题中同类别文本的特征在特征空间中具有聚类性分布的特点,提出一种使用语义中心集代替原训练样本集作为训练样本和支持向量的SVM:语义SVM。文中给出语义中心集的生成步骤,进而给出语义SVM的在线学习(在线分类知识积累)算法框架,以及基于SMO算法的在线学习算法的实现。实验结果说明语义SVM及其在线学习算法具有巨大的应用潜力:不仅在线学习速度和分类速度相对于标准SVM及其简单增量算法有数量级提高,而且分类准确率方面具有一定优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号