首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
文本分类的特征提取方法比较与改进   总被引:12,自引:0,他引:12  
文本的特征提取是文本分类过程中的一个重要环节,它的好坏将直接影响文本分类的准确率。该文介绍了词条的χ2统计方法(CHI)、词条与类别的互信息(MI)、信息增益(IG)、词条的期望交叉熵(CE)等文本特征提取方法,并对其取词策略进行了改进。为了对这些特征提取方法进行系统地比较,选择了三种代表性的分类器对《读卖新闻》文本数据库进行了分类实验。实验结果表明χ2统计方法具有最好的准确率,各种改进的特征提取方法都能提高文本分类的准确率。  相似文献   

2.
支持向量机的中文文本分类研究   总被引:9,自引:0,他引:9  
支持向量机是一种基于统计学习理论的新型机器学习方法,在文本分类领域取得了很好的效果。使用支持向量机进行了文本分类的研究,实现了一个中文文本自动分类系统,并给出了实验结果。  相似文献   

3.
该文是对当前支持向量机在文本分类上的应用进行研究。先介绍了支持向量机的基本方法.再通过对不同方法的支持向量札分类算法的比较,进行一个总体酌描述和概括开对未来发展发向做了一个预测。  相似文献   

4.
张苗  张德贤 《微机发展》2008,18(3):139-141
文本分类是数据挖掘的基础和核心,支持向量机(SVM)是解决文本分类问题的最好算法之一。传统的支持向量机是两类分类问题,如何有效地将其推广到多类分类问题仍是一项有待研究的课题。介绍了支持向量机的基本原理,对现有主要的多类支持向量机文本分类算法进行了讨论和比较。提出了多类支持向量机文本分类中存在的问题和今后的发展。  相似文献   

5.
支持向量机组合分类及其在文本分类中的应用   总被引:3,自引:0,他引:3  
针对标准支持向量机对野值点和噪音敏感,分类时明显倾向于大类别的问题,提出了一种同时考虑样本差异和类别差异的双重加权支持向量机。并给出了由近似支持向量机结合支持向量识别算法,识别野值点和计算样本重要性权值的方法.双重加权支持向量机和近似支持向量机组合的新分类算法尤其适用于样本规模大、样本质量不一、类别不平衡的文本分类问题.实验表明新算法改善了分类器的泛化性能。比传统方法具有更高的查准率和查全率.  相似文献   

6.
支持向量机是在模式分类中表现优秀的一种分类方法。对现有的基于SVM的文本多类分类方法进行了介绍和比较.研究了分类器特征空间模式问题,在这些工作基础上,提出了并行SVM的模型。  相似文献   

7.
文本分类作为信息过滤、信息检索、搜索引擎、文本数据库等领域的技术基础,有着广泛的应用前景。但传统的模式识别方法在处理问题时通常需建立准确的数学模型,而且在解决非线性问题时很难有好的表现。支持向量机在维数灾难方面有很好的表现,并且在小样本数据中有良好的应用。本文集中于文本分类识别问题,并应用到电信领域,取得了满意的结果。  相似文献   

8.
该文是对当前支持向量机在文本分类上的应用进行研究。先介绍了支持向量机的基本方法,再通过对不同方法的支持向量机分类算法的比较,进行一个总体的描述和概括。并对未来发展发向做了一个预测。  相似文献   

9.
文本分类是将自由文本自动划分到若干预先定义类别的方法,在信息检索等领域有很重要的作用。其中,如何选择有效的文本特征是影响文本分类器分类性能的一个重要步骤 。很多应用中需要处理的文本信息包含了很多的命名实体,如某个行业的名人,往往能够在很大程度上影响着文本所属的类别。然而,现阶段的文本特征方法都只利用关键词
词的统计意义,而没有考虑关键词作为命名实体所含有的分类特征。针对这一问题,本文提出了一种将命名实体识别方法NER集成到文本分类特征选择中的方法,在保留关键 词统计特征之外,还保留了单词作为命名实体的分类特征。实验结果表明,相对于其他特征选择方法而言,本文提出的方法在一定程度上提高了文本分类的分类准确率。  相似文献   

10.
SVM和K-means结合的文本分类方法研究   总被引:2,自引:1,他引:1  
有监督的分类方法是文本分类中常用的方法,它需要采用人工标识的样本进行训练,对样本的人工标识是一个比较繁锁的过程。无监督的分类方法没有这一过程,但其分类的效果往往不太好。针对两者各自的优缺点,利用一种基于SVM和K—means相结合的文本分类方法,首先用K-means方法进行文本聚类,然后选取每类中距离聚类中心较近的一些文本作为该类的训练样本训练SVM分类器,最后用训练好的SVM对文本进行分类。此方法避免了无监督方法分类效果不好的缺点,同时也省去了SVM方法中对样本进行人工标识的繁锁过程。基于灾害文本的实验结果也表明了这种新方法的可行性。  相似文献   

11.
依据公安情报文本中不同位置的词条对区分文本类别的贡献显著不同的特点,引入位置权重系数,改进了经典的文本特征权重计算方法(TF-IDF),使文本的权重能够更加全面地反映文本的类别信息。根据公安情报分类系统的需求,设计了基于支持向量机(SVM)的公安情报分类系统,该系统不仅能够实现情报文本的自动分类,而且能够保留在情报文本分类的不同阶段语料的特征信息,为情报信息的进一步加工处理提供支持,同时系统中各模块间采用松耦合的方式衔接,提高了系统的适应性和灵活性。通过实验验证了系统设计的合理性和有效性。  相似文献   

12.
曹晓莉  江朝元  甘思源 《计算机应用》2008,28(10):2648-2651
针对船用污水处理装置状态监测与故障诊断问题,提出了一种聚类支持向量机的故障诊断算法模型。该算法模型首先采用神经网络聚类算法将设备监测状态样本空间聚类分析出正常与异常子空间,再对异常子空间构造多分类支持向量机对故障进行诊断识别。该算法模型避免了盲目故障分类,提高了分类性能。通过对某船用污水处理装置实测样本的训练和检验表明,该算法具有较好的泛化性和推广能力。  相似文献   

13.
针对目前流派分类技术分类性能不够好的问题,将支持向量机和模糊集理论的优点结合起来,提出了一种基于模糊集和支持向量机的文本流派分类方法。并以电影评论作为数据集,比较和分析了该方法在不同文本特征生成方法、不同特征数目下的分类效果,并与SVM方法进行了比较,实验结果表明其微平均查准率要优于SVM方法。理论和实验都证明了提出的方法可以取得较好的分类性能。  相似文献   

14.
针对支持向量机中存在的对噪音和野值敏感的问题,提出了一种基于重复训练的支持向量机方法。该方法选取重复训练后会对分类面有影响的样本,根据其类别隶属度,重复训练相应的次数,以此来改变样本的权值,减小噪音和野值的影响。将该算法应用于文本分类中,实验结果表明,该方法在适度增加了训练时间的情况下,不仅比标准支持向量机方法具有更好的抗噪音和野值的能力,而且提高了分类性能。  相似文献   

15.
文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。对于基于词袋模型(BOW)的维吾尔文文本分类效果不理想的问题,提出了一种基于统计方法的维吾尔语短语抽取算法并将抽取到的短语作为文本特征项,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,短语作为文本特征能够提高维吾尔文文本分类的准确率和召回率。  相似文献   

16.
基于模糊支持向量机的步态识别   总被引:2,自引:0,他引:2  
路远 《计算机工程》2009,35(21):189-191
提出基于模糊支持向量机(FSVM)的步态识别方法,以人体步态的宽度向量作为特征,探讨直接取值法和模糊C均值2种模糊隶属度确定方法对FSVM步态分类效果的影响。实验结果表明,模糊C均值法的识别率均略好于SVM,直接取值法的识别率甚至低于SVM,因此,选取正确的模糊隶属度确定方法是FSVM能否成功应用于步态识别的关键。  相似文献   

17.
张秋余  刘洋 《计算机应用》2007,27(6):1382-1384
潜在语义索引(LSI)通过奇异值分解(SVD)获得原始词—文档矩阵的潜在语义结构,在一定程度上解决了一词多义和多词一义问题。但目前文本分类中使用LSI方法的效果并不理想,这是因为没有充分考虑分类信息。为解决该问题,提出一种改进的局部潜在语义索引(LLSI)方法,使用支持向量机(SVM)来产生局部区域。实验结果表明,该方法是有效的。  相似文献   

18.
针对语音识别系统对实时性和便携性的要求,提出一种基于MFCC/SVM在DM6446嵌入式系统开发平台上的实现方法,实现了一个面向非特定人的语音识别系统,将有向无环图多类分类支持向量机算法移植到该平台。并在该平台用DAG方法对非特定人孤立词和连接词进行语音识别,比隐马尔可夫模型有明显优势。通过样本预选取算法对训练样本进行预选取处理,并且应用到嵌入式语音识别系统中,大大降低了训练时间和测试时间。  相似文献   

19.
训练样本选择是支持向量机应用研究领域的重要课题之一。为此提出了一种类内模式选择新方法。该方法从选择集子空间逼近原类别样本子空间的思想出发,通过迭代,逐一选择那些到已选样本集所在子空间距离最远的样本。在MIT-CBCL人脸识别数据库training-synthetic子库上的同其他方法的比较识别实验中,表明该文方法在选样比率、选样时间以及SVM测试时间等方面均取得了较为明显的优势。  相似文献   

20.
特征向量的归一化比较性研究   总被引:7,自引:0,他引:7       下载免费PDF全文
特征提取和分类器的参数优化是提高分类准确率的主要途径,对公用数据库UCI的相关数据进行特征向量的归一化处理,采用KNN、PNN和SVM进行分类。讨论了特征归一化对分类准确率和分类器参数的影响。实验结果表明:归一化能有效提高分类器的分类准确率,SVM尤为明显,且参数的寻优范围缩小,缩短训练周期。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号