首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
针对数据挖掘中文本自动分类问题,提出了一种基于k-means聚类算法和支持向量机相结合的文本分类方法。该方法先将文本大致聚为k类,然后对每一类用支持向量机进行细分。构造了可用于多个模式类识别的多层SVM模型,该模型可完成对多个模式的分类识别。给出了该模型的构造及应用的方法,并验证了该方法的有效性。  相似文献   

2.
多类支持向量机文本分类方法   总被引:8,自引:3,他引:5  
文本分类是数据挖掘的基础和核心,支持向量机(SVM)是解决文本分类问题的最好算法之一.传统的支持向量机是两类分类问题,如何有效地将其推广到多类分类问题仍是一项有待研究的课题.介绍了支持向量机的基本原理,对现有主要的多类支持向量机文本分类算法进行了讨论和比较.提出了多类支持向量机文本分类中存在的问题和今后的发展.  相似文献   

3.
张苗  张德贤 《微机发展》2008,18(3):139-141
文本分类是数据挖掘的基础和核心,支持向量机(SVM)是解决文本分类问题的最好算法之一。传统的支持向量机是两类分类问题,如何有效地将其推广到多类分类问题仍是一项有待研究的课题。介绍了支持向量机的基本原理,对现有主要的多类支持向量机文本分类算法进行了讨论和比较。提出了多类支持向量机文本分类中存在的问题和今后的发展。  相似文献   

4.
针对现有的支持向量机在多类分类方法上存在的不足,提出了一种基于超球体的二叉树SVM多类分类算法。该算法利用球结构的SVM考虑了每个类的分布情况,能有效地处理不平衡样本数据,设计超球体支持向量机的树型模型,克服了差错积累问题。实验证明,与其它SVM多类分类方法相比,该方法具有较高的分类精度,提高了支持向量机在多类分类问题中的实验效果。  相似文献   

5.
文本分类是文本数据挖掘的基础和核心,为解决在文本分类中二值支持向量机不能进行多类分类的问题,论文提出采用二叉树对多个二值支持向量机(SVM)子分类器进行组合,并运用聚类分析中类距离方法规范二叉树生成过程的基于二叉树的多类支持向量机(MSVM)分类算法。实验数据表明,相对于KNN 算法和朴素贝叶斯算法,基于二叉树的MSVM 算法在文本分类上更具优越性。该算法已应用于科技奖励信息检索系统中,取得了良好的效果。  相似文献   

6.
多类支持向量机在文本分类中的应用   总被引:1,自引:1,他引:0  
传统的支持向量机(SVM)是两类分类问题,如何有效地将其推广到多类分类问题仍是一项有待研究的课题。本文在对现有主要的四种多类支持向量机分类算法讨论的基础上,结合文本分类的特点,详细介绍了决策树支持向量机和几种改进多类支持向量机方法在文本分类中的应用。  相似文献   

7.
支持向量机(SVM)是建立在统计学理论基础上的一种机器学习方法,用于解决二类分类问题,如何有效地将其推广到多类分类问题是一个正在研究的课题.总结了现有的主要的支持向量机多类分类算法,并在1-a-1 SVM分类算法基础上提出一种二次分类的方法.改良了惩罚因子,提高了不易分的类别之间的可分程度.通过对超光谱图像进行分类实验,结果表明该方法具有较高的分类精度.  相似文献   

8.
快速的支持向量机多类分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
研究了支持向量机多类算法DAGSVM(Direct Acyclic Graph SVM)的速度优势,提出了结合DAGSVM和简化支持向量技术的一种快速支持向量机多类分类方法。该方法一方面减少了一次分类所需的两类支持向量机的数量,另一方面减少了支持向量的数量。实验采用UCI和Statlog数据库的多类数据,并和四种多类方法进行比较,结果表明该方法能有效地加快分类速度。  相似文献   

9.
支持向量机(SVM)是一种两类分类算法,如何将SVM算法应用于多类分类问题,目前已衍生出多种方法.其中“二叉树”方法应用比较广泛,但分类支持向量机在树中中间节点位置的不同,直接关系到该方法的分类准确性.基于二叉树方法提出了“类间相异度”的策略,根据类间相异程度来决定多类的分类顺序.  相似文献   

10.
支持向量机(Support Vector Machine,SVM)是根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折中,以期获得最好的泛化能力,并且在解决文本分类中表现出很多特有的优势。本文以文本分类为主要任务,讨论了目前存在的几种二叉树多类SVM算法组合策略。并用中改进的多类SVM分类算法作为文本分类器核心算法,并在多类文本分类实验中进行验证。  相似文献   

11.
基于核聚类方法的多层次支持向量机分类树   总被引:2,自引:0,他引:2  
针对解决多类模式识别问题的SVM方法进行研究,在比较常用的几种多类SVM分类算法基础上,提出了一种基于核聚类方法的多层次SVM分类树,将核空间中的无监督学习方法和有监督学习方法结合起来,实现了一种结构更加简洁清晰、计算效率更高的多层SVM分类树算法,并在实验中取得了良好的结果。  相似文献   

12.
基于核聚类方法的多层次支持向量机分类树   总被引:2,自引:0,他引:2  
针对解决多类模式识别问题的SVM方法进行研究。在比较几种常用的多类SVM分类算法的基础上,提出一种基于核聚类方法的多层次SVM分类树,将核空问中的无监督学习方法和有监督学习方法结合起来,实现了一种结构更加简洁清晰、计算效率更高的多层SVM分类树算法,并在实验中取得了良好的结果.  相似文献   

13.
针对传统金融分析报告分类效率低的问题,提出基于支持向量机的中文文本分类技术来对金融分析报告进行分类,该分类技术采用中科院提供的中文分词系统以及使用两种特征选择算法相结合进行分词和特征选择,并且提出针对TF/IDF权重计算的改进方法。该分类技术选择支持向量机作为分类算法,通过开源的支持向量机对样本进行训练和测试。实验结果表明,采用中文文本分类技术对金融分析报告按照行业进行分类能够满足金融机构的使用需求。  相似文献   

14.
基于线性规划的多类支持向量机算法   总被引:3,自引:0,他引:3  
孙德山  吴今培 《计算机科学》2005,32(10):160-163
多类支持向量机一般采用多个两类分类支持向量机来求解,这就需要解多个二次规划问题,从而导致算法的计算复杂性很高.根据一类分类思想,提出一种基于线性规划的多类分类算法及其分解形式,所给算法通过引入核函数能够独立地对每一类样本形成一个紧致的优化区域,从而达到分类的目的.对人工三螺旋线数据和几组实际数据库的识别实验表明,所给算法在保持良好的分类精度前提下,能有效地降低程序的运行时间.  相似文献   

15.
短时电能质量扰动分类方法研究   总被引:1,自引:1,他引:0  
为了准确检测短时电能质量扰动问题,提出了一种基于K-L变换和支持向量机多值分类器的短时电能质量扰动分类方法。采用离散小波变换获得信号在不同分解尺度下的能量分布作为原始特征空间;运用K-L变换进行模式识别特征空间的提取;设计了适用于短时电能质量扰动的支持向量机多值分类器。实验结果表明,对原始能量特征进行K-L变换后,可以提高分类准确率;支持向量机多值分类器的分类结果优于BP神经网络。  相似文献   

16.
基于核空间相对密度的SVDD多类分类算法*   总被引:3,自引:0,他引:3  
针对现有基于支持向量数据描述(SVDD)的多类分类算法未能充分利用重叠区域样本分布信息等问题,提出了一种基于核空间相对密度的SVDD多类分类算法DM-SVDD。该算法首先由SVDD确定包围每类数据的最小超球,然后计算位于最小超球重叠区域中每个样本在其同类样本间的相对密度,最后以各类样本相对密度的均值为标准,对重叠区域内的待测样本进行分类。实验结果表明,算法DM-SVDD是可行有效的。  相似文献   

17.
衣治安  刘杨 《计算机应用》2007,27(11):2860-2862
目前性能较好的多分类算法有1-v-r支持向量机(SVM)、1-1-1SVM、DDAG SVM等,但存在大量不可分区域且训练时间较长的问题。提出一种基于二叉树的多分类SVM算法用于电子邮件的分类与过滤,通过构建二叉树将多分类转化为二值分类,算法采用先聚类再分类的思想,计算测试样本与子类中心的最大相似度和子类间的分离度,以构造决策节点的最优分类超平面。对于C类分类只需C-1个决策函数,从而可节省训练时间。实验表明,该算法得到了较高的查全率、查准率。  相似文献   

18.
The parameter values of kernel function affect classification results to a certain extent. In the paper, a multiclass classification model based on improved least squares support vector machine (LSSVM) is presented. In the model, the non-sensitive loss function is replaced by quadratic loss function, and the inequality constraints are replaced by equality constraints. Consequently, quadratic programming problem is simplified as the problem of solving linear equation groups, and the SVM algorithm is realized by least squares method. When the LSSVM is used in multiclass classification, it is presented to choose parameter of kernel function on dynamic, which enhances preciseness rate of classification. The Fibonacci symmetry searching algorithm is simplified and improved. The changing rule of kernel function searching region and best shortening step is studied. The best multiclass classification results are obtained by means of synthesizing kernel function searching region and best shortening step. The simulation results show the validity of the model.  相似文献   

19.
同义词和近义词现象以及强关联语义信息加大了文本向量的特征维数,对文本分类的效率和精度都会带来极大影响.为了有效降低文本向量的特征维数,提出一种基于混合并行遗传聚类的文本特征抽取方法.该方法首先使用K-means聚类算法进行特征词粗粒度聚类,然后采用混合并行遗传算法对各类特征词进行细粒度聚类,最后对各聚类中的特征词进行分析并压缩,得到最终能反映文本类别特征和语义信息的文本特征词集合.实验证明,该方法是一种有效的文本特征抽取方法,能切实提高文本分类的效率和精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号