首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 437 毫秒
1.
在优化分类技术的研究中,文本特征化后通常具有高维性和不平衡性的特点,导致传统的分类算法准确率不高的问题.针对文本分类器的性能容易受到核函数和参数的影响的问题,为提高文本分类器的准确性.采用支持向量机(SVM)的理论在文本分类技术同时将根据优化的粒子群算法(PSO)引入SVM分类算法中进行优化文本分类器的参数,将分类器的准确率作为PSO算法适应度函数通过粒子移动操作找出最佳参数并用SVM算法进行分类.在文本数据集上的仿真结果表明,与传统的算法相比,经PSO算法优化后的SVM文本分类器的准确性更高,PSO算法是一种有效的优化方法,能广泛应用于文本分类问题.  相似文献   

2.
将文本分类理论应用于哈萨克语中,给出基于支持向量机的哈萨克文文本分类系统的设计思想.从哈萨克语言学的角度对哈萨克文分析,提出哈萨克文词干提取的方法.在对支持向量机的理论分析基础上,提出主动学习算法对支持向量机进行训练,使用训练后的分类器对新的文本进行分类.实验结果表明,该方法在哈萨克文文本分类中能获得可接受的分类性能.  相似文献   

3.
多标签文本分类问题是多标签分类的重要分支之一,现有的方法往往忽视了标签之间的关系,难以有效利用标签之间存在着的相关性,从而影响分类效果.基于此,本文提出一种融合BERT和图注意力网络的模型HBGA(hybrid BERT and graph attention):首先,利用BERT获得输入文本的上下文向量表示,然后用Bi-LSTM和胶囊网络分别提取文本全局特征和局部特征,通过特征融合方法构建文本特征向量,同时,通过图来建模标签之间的相关性,用图中的节点表示标签的词嵌入,通过图注意力网络将这些标签向量映射到一组相互依赖的分类器中,最后,将分类器应用到特征提取模块获得的文本特征进行端到端的训练,综合分类器和特征信息得到最终的预测结果.在Reuters-21578和AAPD两个数据集上面进行了对比实验,实验结果表明,本文模型在多标签文本分类任务上得到了有效的提升.  相似文献   

4.
支持向量机是在模式分类中表现优秀的一种分类方法。对现有的基于SVM的文本多类分类方法进行了介绍和比较,研究了分类器特征空间模式问题,在这些工作基础上,提出了并行SVM的模型。  相似文献   

5.
自动文本分类是指在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。现有的文本分类算法大都基于向量空间模型,因而不能充分表达文档的语义特征信息,从而影响了分类器性能。针对此问题,本文通过训练文档构造相似矩阵,从中获得每个类别的主题信息,由此构造分类器,最后与经典的分类器进行组合以确定文本类别。实验系统证明本文提出的分类方法较大改进了分类器性能。  相似文献   

6.
支持向量机是在模式分类中表现优秀的一种分类方法。对现有的基于SVM的文本多类分类方法进行了介绍和比较.研究了分类器特征空间模式问题,在这些工作基础上,提出了并行SVM的模型。  相似文献   

7.
基于W_2~1再生核支持向量机的模式分类研究   总被引:1,自引:0,他引:1  
支持向量机是基于统计学习理论的模式分类器。它通过结构风险最小化准则和核函数方法,较好地解决了模式分类器复杂性和推广性之间的矛盾,引起了大家对模式识别领域的极大关注。近年来,支持向量机在手写体识别、人脸识别、文本分类等领域取得了很大的成功。文章将一种新的核函数用于虹膜识别,并与传统的多项式核函数、高斯核函数进行了比较。初步结果显示了该核函数的应用潜力。  相似文献   

8.
惠康华  李春利 《计算机工程》2005,31(B07):128-129,132
支持向量机是基于统计学习理论的模式分类器。它通过结构风险最小化准则和核函数方法,较好地解决了模式分类器复杂性和推广性之间的矛盾,引起了大家对模式识别领域的极大关注。近年来,支持向量机在手写体识别、人脸识别、文本分类等领域取得了很大的成功。文章将一种新的核函数用于虹膜识别,并与传统的多项式核函数、高斯核函数进行了比较。初步结果显示了该核函数的应用潜力。  相似文献   

9.
分析了简单向量距离文本分类算法的不足,提出了相应的改进算法.把反馈思想引入简单向量距离分类模型,使文本分类系统具备了不断学习的能力.实验证明,改进后的文本分类模型适合于文本分类的需要,改善了原有分类器的性能.  相似文献   

10.
基于W12再生核支持向量机的模式分类研究   总被引:1,自引:0,他引:1  
惠康华  李春利 《计算机工程》2005,31(Z1):128-129
支持向量机是基于统计学习理论的模式分类器.它通过结构风险最小化准则和核函数方法,较好地解决了模式分类器复杂性和推广性之间的矛盾,引起了大家对模式识别领域的极大关注.近年来,支持向量机在手写体识别、人脸识别、文本分类等领域取得了很大的成功.文章将一种新的核函数用于虹膜识别,并与传统的多项式核函数、高斯核函数进行了比较.初步结果显示了该核函数的应用潜力.  相似文献   

11.
中文文本体裁的自动分类机制   总被引:1,自引:0,他引:1  
文本按体裁自动分类属于按文本的形式分类的范畴,所以它与按内容自动分类问题有许多的不同之处,本文提出了一种关于中文文本体裁自动分类的新机制。在体裁分类过程中首要的问题是分类特征的选取,体裁分类特征项分为两种方式加以描述,一是集合形式,如基于分类词典和语料统计的政论性词汇和情感词汇等,二是规则形式,如公文标识信息和条文句等。基于根据特征之间的关联性和差异性,采用样本分布决策的方法抽取相应的特征项。最后利用支撑向量机算法进行自动分类。该机制已经在五类体裁的语料上得到实现,并获得了较好的效果。  相似文献   

12.
基于TF-IDF和余弦相似度的文本分类方法   总被引:1,自引:0,他引:1  
文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习功能。该文提出一种新的文本分类方法,包括三个步骤: 基于TF-IDF方法提取类别关键词;通过类别关键词和待分类文本关键词的相似性进行文本分类;在分类过程中更新类别关键词改进分类器性能。仿真实验结果表明,本文提出方法的准确度较目前常用方法有较大提高,在实验数据集上分类准确度达到90%,当文本数据量较大时,分类准确度可达到95%。算法初次使用时,需要一定的训练样本和训练时间,但分类时间可下降到其他算法的十分之一。该方法具有自学习模块,在分类过程中,可以根据分类经验自动更新类别关键词,保证分类器准确率,具有很强的现实应用性。  相似文献   

13.
为了进一步提高支持向量机分类的准确性和泛化能力,提出一种基于支持向量机的改进二叉树分类算法.首先介绍支持向量机的基本原理,总结了常见的多分类器分类算法及其特点,结合现有分类算法的优点,为分类器引入了不同的权值,提出二叉树改进分类算法,有效避免了常用分类算法不足.通过仿真实验,与典型的多类分类算法对比,验证该算法的有效性,为多类分类预测研究提供了一条有效的途径.  相似文献   

14.
基于混合多分类器结合算法的遥感分类?   总被引:1,自引:0,他引:1       下载免费PDF全文
杨海波  王宗敏  张涛 《计算机工程》2010,36(11):173-175
为改善遥感影像分类精度,提出混合多分类器结合算法。考虑抽象级和测量级2个层次的特点,综合最优子分类器、Bagging算法和最大置信度区间法。应用到不同分辨率的遥感影像分类进行验证,结果表明,与选用的子分类器相比,该算法的总体精度和单个类别分类精度有明显提高,是有效的高中精度遥感影像分类算法。  相似文献   

15.
短文本特征稀疏、上下文依赖性强的特点,导致传统长文本分类技术不能有效地被直接应用。为了解决短文本特征稀疏的问题,提出基于Sentence-LDA主题模型进行特征扩展的短文本分类方法。该主题模型是隐含狄利克雷分布模型(Latent Dirichlet Allocation, LDA)的扩展,假设一个句子只产生一个主题分布。利用训练好的Sentence-LDA主题模型预测原始短文本的主题分布,从而将得到的主题词扩展到原始短文本特征中,完成短文本特征扩展。对扩展后的短文本使用支持向量机(Support Vector Machine, SVM)进行最后的分类。实验显示,与传统的基于向量空间模型(Vector Space Model,VSM)直接表示短文本的方法比较,本文提出的方法可以有效地提高短文本分类的准确率。  相似文献   

16.
Deep Web自动分类是建立深网数据集成系统的前提和基础。提出了一种基于领域特征文本的Deep Web分类方法。首先借助本体知识对表达同一语义的不同词汇进行了概念抽象,进而给出了领域相关度的定义,并将其作为特征文本选择的量化标准,避免了人为选取的主观性和不确定性;在接口向量模型构建中,考虑了不同特征文本对于分类作用的差异,提出了一种改进的W-TFIDF权重计算方法;最后采用KNN算法对接口向量进行了分类。对比实验证明,利用所提方法选择的特征文本是准确有效的,新的特征文本权重计算方法能显著地提高分类精度,且在KNN算法中表现出较好的稳定性。  相似文献   

17.
摘要:跨领域分类旨在利用已标记的源领域信息来为概率分布不同,未标记的目标领域训练一个精确的分类器。已有工作大多以文本主题为特征表现形式,并基于共享主题来建立领域间独有主题的映射关系,从而达到跨领域学习的目的。然而,现实中领域间的连接可以是多角度的,而这种基于单一共享主题的映射方式,存在语义表示不完备和偏差性等问题,从而影响跨领域分类精度。基于此,提出一种基于多桥映射的跨领域分类方法,通过提取多重的共享主题和领域独有主题,并以多重共享主题为桥梁来建立领域独有主题之间的多重映射关系,从而实现跨领域的分类。在20Newsgroups和Reuters-21578数据集上的实验结果表明,和同类算法相比,所提算法在分类精度上具有优越性。  相似文献   

18.
SVM在文本分类中的应用是近年来文本分类领域重要的进展之一。许多实验表明,SVM在文本分类中比其他的机器学习算法表现出更高的分类精度,但在大规模数据上的收敛速度较慢,成为SVM在实际应用中的一大缺点。球向量机是一种比SVM更快的机器学习方法。本文将BVM应用于文本分类。实验表明,BVM在文本分类中的应用具有与SVM相当的精 度,而且比SVM有更少的训练时间。  相似文献   

19.
特征选择在文本分类中是非常必要的,这是由于它可以使分类更加有效与准确。本文根据特征选择方法χ2统计方法的不足,对χ2统计进行改进,并在支持向量机分类算法上进行实验。实验结果表明改进的方法可以提高分类的准确度。  相似文献   

20.
在文本自动分类中,针对如何进行文本特征的选择和提取这一关键和基础性工作,提出用支持向量度量词汇对分类的贡献,然后进行文本特征的提取。实验结果表明,该方法可以在确保分类信息不损失的前提下,降低向量空间的维数,提高分类器效率和分类准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号