首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 135 毫秒
1.
提出基于改进PSO优化支持向量机的文本分类方法,首先采用向量空间模型对文本特征进行提取,使用互信息对文本特征进行降维,然后提出改进PSO算法,该算法可实现对SVM参数的精确、稳定、快速优化选择,对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。  相似文献   

2.
SVM在文本分类中的应用研究   总被引:1,自引:0,他引:1  
本文研究了支持向量机(SVM)在文本分类中的应用,阐述了支持向量机及核函数等理论,并就文本的性能进行了实验证明。  相似文献   

3.
一种改进的支持向量机的文本分类算法   总被引:16,自引:11,他引:5  
在文本分类中,应用支持向量机(SVM)算法能使分类在小样本的条件下具有良好的泛化能力.但支持向量机的参数取值决定了其学习性能和泛化能力.为提高支持向量机算法的性能,提出了一种采用免疫算法对支持向量机参数进行优化的文本分类算法(IA-SVM).算法减少了对支持向量机参数选择的盲目性,提高了SVM的预测精度.实验表明,IA-SVM算法在文本分类问题上明显提高了分类正确牢,学习速度也有提高.  相似文献   

4.
支持向量机在文本分类中的应用   总被引:1,自引:0,他引:1  
文中提出了基于朴素贝叶斯的支持向量机的分类方法,首先采用文本预处理,再根据文本的特征进行特征降维,然后用基于朴素贝叶斯的算法对支持向量机进行训练后,再对新的文本进行分类。实验表明,该方法比传统的SVM算法具有较高的准确率。  相似文献   

5.
一种基于改进的支持向量机的多类文本分类方法   总被引:19,自引:0,他引:19       下载免费PDF全文
提出了一种基于二叉树、预抽取支持向量机及循环迭代算法的改进的支持向量机(SVM)的多类文本分类方法, 与现有的多类分类SVM算法相比,该方法具有较高的计算效率。给出了具体实现过程并将其用于文本分类中,实验表明该算法用于文本分类的有效性及其高效率。  相似文献   

6.
支持向量机是在模式分类中表现优秀的一种分类方法。对现有的基于SVM的文本多类分类方法进行了介绍和比较,研究了分类器特征空间模式问题,在这些工作基础上,提出了并行SVM的模型。  相似文献   

7.
孙辉  许洁萍  刘彬彬 《计算机应用》2015,35(6):1753-1756
针对不同特征向量下选择最优核函数的学习方法问题,将多核学习支持向量机(MK-SVM)应用于音乐流派自动分类中,提出了将最优核函数进行加权组合构成合成核函数进行流派分类的方法。多核分类学习能够针对不同的声学特征采用不同的最优核函数,并通过学习得到各个核函数在分类中的权重,从而明确各声学特征在流派分类中的权重,为音乐流派分类中特征向量的分析和选择提供了一个清晰、明确的结果。在ISMIR 2011竞赛数据集上验证了提出的基于多核学习支持向量机(MKL-SVM)的分类方法,并与传统的基于单核支持向量机的方法进行了比较分析。实验结果表明基于MKL-SVM的音乐流派自动分类准确率比传统单核支持向量机的分类准确率提高了6.58%,且该方法与传统的特征选择结果比较,更清楚地解释了所选择的特征向量对流派分类的影响大小,通过选择影响较大的特征组合进行分类,分类结果也有了明显的提升。  相似文献   

8.
支持向量机是在模式分类中表现优秀的一种分类方法。对现有的基于SVM的文本多类分类方法进行了介绍和比较.研究了分类器特征空间模式问题,在这些工作基础上,提出了并行SVM的模型。  相似文献   

9.
张苗  张德贤 《微机发展》2008,18(3):139-141
文本分类是数据挖掘的基础和核心,支持向量机(SVM)是解决文本分类问题的最好算法之一。传统的支持向量机是两类分类问题,如何有效地将其推广到多类分类问题仍是一项有待研究的课题。介绍了支持向量机的基本原理,对现有主要的多类支持向量机文本分类算法进行了讨论和比较。提出了多类支持向量机文本分类中存在的问题和今后的发展。  相似文献   

10.
多类支持向量机文本分类方法   总被引:8,自引:3,他引:5  
文本分类是数据挖掘的基础和核心,支持向量机(SVM)是解决文本分类问题的最好算法之一.传统的支持向量机是两类分类问题,如何有效地将其推广到多类分类问题仍是一项有待研究的课题.介绍了支持向量机的基本原理,对现有主要的多类支持向量机文本分类算法进行了讨论和比较.提出了多类支持向量机文本分类中存在的问题和今后的发展.  相似文献   

11.
音乐类型分类主要包括两个阶段:特征提取和分类。文中在研究小波变换理论基础上,采用连续小波分析方法提取音乐特征参数。支持向量机是专门针对有限样本情况下的一种分类方法。它是建立在统计学习理论的VC维理论和结构风险最小原理基础上,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。采用指数径向基函数(脚)内核,分类正确率可达85%,比传统的混合高斯模型和K近邻分类器,分类性能分别提高了21%和23%。实验结果表明,采用小波和支持向量机方法是一种相当有效的音乐类型分类方法。  相似文献   

12.
基于模糊软集合理论的文本分类方法   总被引:3,自引:0,他引:3  
为提高文本分类精度,提出一种基于模糊软集合理论的文本分类方法。该方法把文本训练集表示成模糊软集合表格形式,通过约简、构造软集合对照表方法找出待分类文本所属类别,并针对文本特征提取过程中由于相近特征而导致分类精度下降问题给出一种基于正则化互信息特征选择算法,有效地解决了上述问题。与传统的KNN和SVM分类算法相比,模糊软集合方法在文本分类的精度和准度上都有所提高。  相似文献   

13.
Acoustic event classification may help to describe acoustic scenes and contribute to improve the robustness of speech technologies. In this work, fusion of different information sources with the fuzzy integral (FI), and the associated fuzzy measure (FM), are applied to the problem of classifying a small set of highly confusable human non-speech sounds. As FI is a meaningful formalism for combining classifier outputs that can capture interactions among the various sources of information, it shows in our experiments a significantly better performance than that of any single classifier entering the FI fusion module. Actually, that FI decision-level fusion approach shows comparable results to the high-performing SVM feature-level fusion and thus it seems to be a good choice when feature-level fusion is not an option. We have also observed that the importance and the degree of interaction among the various feature types given by the FM can be used for feature selection, and gives a valuable insight into the problem.  相似文献   

14.
中文文本体裁分类中特征选择的研究   总被引:4,自引:2,他引:2       下载免费PDF全文
针对文本体裁自动分类在特征选择和权重计算方面的特殊性,提出文本的内容类别信息,改进传统特征选择方法CHI以及权重计算公式tf.idf,并运用支持向量机在含5类体裁的语料上进行中文文本体裁自动分类。实验结果表明,该方案是可行的。  相似文献   

15.
一种新的核化SVM多层分类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
利用核化思想提出了一种新的SVM多层分类算法。该算法的基本思路是:先利用Mercer核,将输入空间非线性可分的训练样本映射到高维特征空间Hilbert中,使之线性可分,然后采用最小超球体类包含作为层次分类的依据来生成二叉决策树,从而实现在高维空间中的多类分类。实验表明,采用该算法进行多类分类,可以有效地解决输入空间非线性可分问题,并可在一定程度上提高分类器的分类精度。  相似文献   

16.
This paper reports a comparative study of two machine learning methods on Arabic text categorization. Based on a collection of news articles as a training set, and another set of news articles as a testing set, we evaluated K nearest neighbor (KNN) algorithm, and support vector machines (SVM) algorithm. We used the full word features and considered the tf.idf as the weighting method for feature selection, and CHI statistics as a ranking metric. Experiments showed that both methods were of superior performance on the test corpus while SVM showed a better micro average F1 and prediction time.  相似文献   

17.
We present an algorithm that predicts musical genre and artist from an audio waveform. Our method uses the ensemble learner ADABOOST to select from a set of audio features that have been extracted from segmented audio and then aggregated. Our classifier proved to be the most effective method for genre classification at the recent MIREX 2005 international contests in music information extraction, and the second-best method for recognizing artists. This paper describes our method in detail, from feature extraction to song classification, and presents an evaluation of our method on three genre databases and two artist-recognition databases. Furthermore, we present evidence collected from a variety of popular features and classifiers that the technique of classifying features aggregated over segments of audio is better than classifying either entire songs or individual short-timescale features. Editor: Gerhard Widmer  相似文献   

18.
使用最大熵模型进行中文文本分类   总被引:52,自引:1,他引:51  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Baves,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法.  相似文献   

19.
使用Logistic回归模型进行中文文本分类,通过实验,比较和分析了不同的中文文本特征、不同的特征数目、不同文档集合的情况下,基于Logistic回归模型的分类器的性能。并将其与线性SVM文本分类器进行了比较,结果显示它的分类性能与线性SVM方法相当,表明这种方法应用于文本分类的有效性。  相似文献   

20.
Electronic mail is a major revolution taking place over traditional communication systems due to its convenient, economical, fast, and easy to use nature. A major bottleneck in electronic communications is the enormous dissemination of unwanted, harmful emails known as spam emails. A major concern is the developing of suitable filters that can adequately capture those emails and achieve high performance rate. Machine learning (ML) researchers have developed many approaches in order to tackle this problem. Within the context of machine learning, support vector machines (SVM) have made a large contribution to the development of spam email filtering. Based on SVM, different schemes have been proposed through text classification approaches (TC). A crucial problem when using SVM is the choice of kernels as they directly affect the separation of emails in the feature space. This paper presents thorough investigation of several distance-based kernels and specify spam filtering behaviors using SVM. The majority of used kernels in recent studies concern continuous data and neglect the structure of the text. In contrast to classical kernels, we propose the use of various string kernels for spam filtering. We show how effectively string kernels suit spam filtering problem. On the other hand, data preprocessing is a vital part of text classification where the objective is to generate feature vectors usable by SVM kernels. We detail a feature mapping variants in TC that yield improved performance for the standard SVM in filtering task. Furthermore, to cope for realtime scenarios we propose an online active framework for spam filtering. We present empirical results from an extensive study of online, transductive, and online active methods for classifying spam emails in real time. We show that active online method using string kernels achieves higher precision and recall rates.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号