首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
支持向量机的中文文本分类研究   总被引:9,自引:0,他引:9  
支持向量机是一种基于统计学习理论的新型机器学习方法,在文本分类领域取得了很好的效果。使用支持向量机进行了文本分类的研究,实现了一个中文文本自动分类系统,并给出了实验结果。  相似文献   

2.
SVM在文本分类中的应用是近年来文本分类领域重要的进展之一。许多实验表明,SVM在文本分类中比其他的机器学习算法表现出更高的分类精度,但在大规模数据上的收敛速度较慢,成为SVM在实际应用中的一大缺点。球向量机是一种比SVM更快的机器学习方法。本文将BVM应用于文本分类。实验表明,BVM在文本分类中的应用具有与SVM相当的精 度,而且比SVM有更少的训练时间。  相似文献   

3.
基于SVM的中文文本自动分类研究   总被引:1,自引:0,他引:1  
详细介绍了进行文本分类的过程,并着重介绍了一种新的基于结构风险最小化理论的分类算法——支持向量机,通过实验比较支持向量机算法和传统的KNN算法应用于文本分类的效果,证实了支持向量机在处理文本分类问题上的优越性。  相似文献   

4.
文本分类是组织和处理海量文本信息的关键方法。目前的文本分类模型多用关键词特征向量描述文本资源,造成向量的高维性和稀疏性。引入文本资源的概念特征,将文本资源描述由关键词级提升至概念级,提高文本资源描述的准确性,并提出了基于概念特征的语义文本分类模型。仿真实验的结果表明,该模型能有效克服资源特征向量空间的高维性和稀疏性,确保向量空间的正交性,在语义文本分类的效率和正确性上都有良好的表现。  相似文献   

5.
支持向量机是数据挖掘的新方法,由于其优秀的学习能力而得到了广泛的应用,但是,传统的支持向量机算法在处理大规模问题时存在训练时间过长和内存空间需求过大的问题,而应用多个支持向量机构成多分类器系统进行并行学习,是目前解决文本分类中大规模数据处理问题的一种有效方法。在分析传统并行算法的基础上,提出了一种改进的基于多支持向量机的并行学习算法,实验结果表明,采用该算法可使得分类效率得到较大的程度的提高,虽然,分类精度相对传统的方法略差,但是,在可接受的范围之内。  相似文献   

6.
针对文本情感分类准确率不高的问题,提出基于CCA-VSM分类器和KFD的多级文本情感分类方法。采用典型相关性分析对文档的权重特征向量和词性特征向量进行降维,在约简向量集上构建向量空间模型,根据模型之间的差异度设计VSM分类器,筛选出与测试文档差异度较小的R个模型作为核Fisher判别的输入,最终判别出文档的情感观点。实验结果表明:该方法比传统支持向量机有较高的分类准确率和较快的分类速度,权重特征和词性特征对分类准确率的影响较大。  相似文献   

7.
支持向量机是在统计学习理论基础上发展起来的新一代学习算法,适宜构造高维有限样本模型,具有很好的分类精度和泛化性能。文中介绍了中文文本分类过程,将支持向量机应用于中文文本分类模型中,对分类器参数选择进行了分析和讨论。实验分析表明,该系统在较小训练集条件下可以取得较好的分类效果。  相似文献   

8.
马忠宝  刘冠蓉 《微机发展》2006,16(11):70-72
支持向量机是在统计学习理论基础上发展起来的新一代学习算法,适宜构造高维有限样本模型,具有很好的分类精度和泛化性能。文中介绍了中文文本分类过程,将支持向量机应用于中文文本分类模型中,对分类器参数选择进行了分析和讨论。实验分析表明,该系统在较小训练集条件下可以取得较好的分类效果。  相似文献   

9.
基于SVM算法的文本分类技术研究   总被引:9,自引:0,他引:9  
在优化分类技术的研究中,文本特征化后通常具有高维性和不平衡性的特点,导致传统的分类算法准确率不高的问题.针对文本分类器的性能容易受到核函数和参数的影响的问题,为提高文本分类器的准确性.采用支持向量机(SVM)的理论在文本分类技术同时将根据优化的粒子群算法(PSO)引入SVM分类算法中进行优化文本分类器的参数,将分类器的准确率作为PSO算法适应度函数通过粒子移动操作找出最佳参数并用SVM算法进行分类.在文本数据集上的仿真结果表明,与传统的算法相比,经PSO算法优化后的SVM文本分类器的准确性更高,PSO算法是一种有效的优化方法,能广泛应用于文本分类问题.  相似文献   

10.
基于支持向量机SVM的中文文本分类方法的泛化能力与其参数选取紧密相关,参数优化对文本分类精度有较大影响。为解决优化SVM参数难题,提出一种基于模拟退火(SA)优化SVM的文本分类方法。将文本分类准确率作为模拟退火的优化目标,利用SA良好的寻优能力搜索SVM的最优参数组合。在相同的数据集上进行实验,结果表明模拟退火具有稳定的全局搜索性能,是优化SVM参数的一种有效方式。相比其他文本分类算法,基于SA-SVM的中文文本分类的分类准确率更高,泛化能力更强,具有良好的分类性能。  相似文献   

11.
基于支持向量机的中文文本自动分类研究   总被引:2,自引:0,他引:2  
首先对文本提取特征向量,再利用词语相似度求出文本特征子集,由支持向量机进行文本分类,实现了一个中文文本自动分类系统,并对该系统进行了针对SVM大规模真实文本的试验测试。试验表明,该方法的系统的招回率较低,而准确率较高,取得了令人满意的结果。  相似文献   

12.
文本分类特征权重改进算法   总被引:1,自引:2,他引:1       下载免费PDF全文
台德艺  王俊 《计算机工程》2010,36(9):197-199,
TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法,着重考虑了词频与逆文档频等因素,但无法把握特征词在类间与类内的分布情况。为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重,引入特征词分布集中度系数改进IDF函数、用分散度系数进行加权,提出TF-IIDF-DIC权重函数。实验结果表明,基于TF-IIDF-DIC权重算法的K-NN文本分类宏平均F1值比TF-IDF算法提高了6.79%。  相似文献   

13.
文本分类特征权重改进算法   总被引:4,自引:2,他引:4       下载免费PDF全文
台德艺  王俊 《计算机工程》2010,36(9):197-199
TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法,着重考虑了词频与逆文档频等因素,但无法把握特征词在类间与类内的分布情况。为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重,引入特征词分布集中度系数改进IDF函数、用分散度系数进行加权,提出TF-IIDF-DIC权重函数。实验结果表明,基于TF-IIDF-DIC权重算法的K-NN文本分类宏平均F1值比TF-IDF算法提高了6.79%。  相似文献   

14.
刘端阳  陆洋 《计算机工程》2012,38(8):128-130
传统tf.idf方法未利用分类数据的特性,无法反映词在各个类别之间的比例关系。为此,在分析有指导的文本特征加权方法tf.rf基础上,提出一种基于有指导的改进文本特征加权方法tf.ridf。该改进方法结合tf.idf和tf.rf 2种方法的特点,考虑词在总体文档及各类别文档之间的关系,实现文本特征加权。实验结果表明,该方法的分类能力比tf.rf方法有明显提升。  相似文献   

15.
针对支持向量机中存在的对噪音和野值敏感的问题,提出了一种基于重复训练的支持向量机方法。该方法选取重复训练后会对分类面有影响的样本,根据其类别隶属度,重复训练相应的次数,以此来改变样本的权值,减小噪音和野值的影响。将该算法应用于文本分类中,实验结果表明,该方法在适度增加了训练时间的情况下,不仅比标准支持向量机方法具有更好的抗噪音和野值的能力,而且提高了分类性能。  相似文献   

16.
一种用于文本分类的语义SVM及其在线学习算法   总被引:1,自引:1,他引:1  
该文利用SVM在小训练样本集条件下仍有高泛化能力的特性,结合文本分类问题中同类别文本的特征在特征空间中具有聚类性分布的特点,提出一种使用语义中心集代替原训练样本集作为训练样本和支持向量的SVM:语义SVM。文中给出语义中心集的生成步骤,进而给出语义SVM的在线学习(在线分类知识积累)算法框架,以及基于SMO算法的在线学习算法的实现。实验结果说明语义SVM及其在线学习算法具有巨大的应用潜力:不仅在线学习速度和分类速度相对于标准SVM及其简单增量算法有数量级提高,而且分类准确率方面具有一定优势。  相似文献   

17.
基于词组学习的视频文本检测方法   总被引:1,自引:1,他引:1       下载免费PDF全文
朱成军  蒲菊华  薛玲  熊璋 《计算机工程》2008,34(13):185-187
提出一种以词组作为模式识别对象的中英文视频文本检测算法,其根据视频中文本的笔画结构特点和聚集特性构造一个18维的特征向量,利用支持向量机将视频帧分为文本和非文本区域,通过多分辨率模型检测不同尺寸的文本,采用扩张-收缩的后处理过程校准文本区域位置。实验结果表明,该算法的检测准确率达93.17%,误检率仅为0.73%。  相似文献   

18.
传统的支持向量机(SVM)是两类分类问题,如何有效地将其推广到多类分类问题仍是一项有待研究的课题。本文在对现有主要的四种多类支持向量机分类算法讨论的基础上,结合文本分类的特点,详细介绍了决策树支持向量机和几种改进多类支持向量机方法在文本分类中的应用。  相似文献   

19.
通过对自然文本统计模型和特性的分析,指出隐藏消息后可能对文本统计特性带来的变化,提出基子支持向量机的通用检测算法。将文本的5个基本统计特征量作为分类特征向量,采用支持向量机对自然文本和载密文本进行有效分类检测。实验结果证明,该算法具有较好的适用性和可靠性。  相似文献   

20.
自动分类技术在企业竞争情报系统中的应用   总被引:3,自引:0,他引:3  
论文介绍了基于支持向量机(SVM)方法的自动分类技术,以及该项技术在企业竞争情报系统中实现情报资料自动分类的应用,通过对测试结果的评估表明,这种基于统计学习原理的自动分类方法能够达到较好的效果,实现企业情报资料智能化预处理功能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号