共查询到20条相似文献,搜索用时 437 毫秒
1.
在优化分类技术的研究中,文本特征化后通常具有高维性和不平衡性的特点,导致传统的分类算法准确率不高的问题.针对文本分类器的性能容易受到核函数和参数的影响的问题,为提高文本分类器的准确性.采用支持向量机(SVM)的理论在文本分类技术同时将根据优化的粒子群算法(PSO)引入SVM分类算法中进行优化文本分类器的参数,将分类器的准确率作为PSO算法适应度函数通过粒子移动操作找出最佳参数并用SVM算法进行分类.在文本数据集上的仿真结果表明,与传统的算法相比,经PSO算法优化后的SVM文本分类器的准确性更高,PSO算法是一种有效的优化方法,能广泛应用于文本分类问题. 相似文献
2.
3.
多标签文本分类问题是多标签分类的重要分支之一,现有的方法往往忽视了标签之间的关系,难以有效利用标签之间存在着的相关性,从而影响分类效果.基于此,本文提出一种融合BERT和图注意力网络的模型HBGA(hybrid BERT and graph attention):首先,利用BERT获得输入文本的上下文向量表示,然后用Bi-LSTM和胶囊网络分别提取文本全局特征和局部特征,通过特征融合方法构建文本特征向量,同时,通过图来建模标签之间的相关性,用图中的节点表示标签的词嵌入,通过图注意力网络将这些标签向量映射到一组相互依赖的分类器中,最后,将分类器应用到特征提取模块获得的文本特征进行端到端的训练,综合分类器和特征信息得到最终的预测结果.在Reuters-21578和AAPD两个数据集上面进行了对比实验,实验结果表明,本文模型在多标签文本分类任务上得到了有效的提升. 相似文献
4.
支持向量机是在模式分类中表现优秀的一种分类方法。对现有的基于SVM的文本多类分类方法进行了介绍和比较,研究了分类器特征空间模式问题,在这些工作基础上,提出了并行SVM的模型。 相似文献
5.
6.
支持向量机是在模式分类中表现优秀的一种分类方法。对现有的基于SVM的文本多类分类方法进行了介绍和比较.研究了分类器特征空间模式问题,在这些工作基础上,提出了并行SVM的模型。 相似文献
7.
基于W_2~1再生核支持向量机的模式分类研究 总被引:1,自引:0,他引:1
支持向量机是基于统计学习理论的模式分类器。它通过结构风险最小化准则和核函数方法,较好地解决了模式分类器复杂性和推广性之间的矛盾,引起了大家对模式识别领域的极大关注。近年来,支持向量机在手写体识别、人脸识别、文本分类等领域取得了很大的成功。文章将一种新的核函数用于虹膜识别,并与传统的多项式核函数、高斯核函数进行了比较。初步结果显示了该核函数的应用潜力。 相似文献
8.
支持向量机是基于统计学习理论的模式分类器。它通过结构风险最小化准则和核函数方法,较好地解决了模式分类器复杂性和推广性之间的矛盾,引起了大家对模式识别领域的极大关注。近年来,支持向量机在手写体识别、人脸识别、文本分类等领域取得了很大的成功。文章将一种新的核函数用于虹膜识别,并与传统的多项式核函数、高斯核函数进行了比较。初步结果显示了该核函数的应用潜力。 相似文献
9.
分析了简单向量距离文本分类算法的不足,提出了相应的改进算法.把反馈思想引入简单向量距离分类模型,使文本分类系统具备了不断学习的能力.实验证明,改进后的文本分类模型适合于文本分类的需要,改善了原有分类器的性能. 相似文献
10.
基于W12再生核支持向量机的模式分类研究 总被引:1,自引:0,他引:1
支持向量机是基于统计学习理论的模式分类器.它通过结构风险最小化准则和核函数方法,较好地解决了模式分类器复杂性和推广性之间的矛盾,引起了大家对模式识别领域的极大关注.近年来,支持向量机在手写体识别、人脸识别、文本分类等领域取得了很大的成功.文章将一种新的核函数用于虹膜识别,并与传统的多项式核函数、高斯核函数进行了比较.初步结果显示了该核函数的应用潜力. 相似文献
11.
中文文本体裁的自动分类机制 总被引:1,自引:0,他引:1
文本按体裁自动分类属于按文本的形式分类的范畴,所以它与按内容自动分类问题有许多的不同之处,本文提出了一种关于中文文本体裁自动分类的新机制。在体裁分类过程中首要的问题是分类特征的选取,体裁分类特征项分为两种方式加以描述,一是集合形式,如基于分类词典和语料统计的政论性词汇和情感词汇等,二是规则形式,如公文标识信息和条文句等。基于根据特征之间的关联性和差异性,采用样本分布决策的方法抽取相应的特征项。最后利用支撑向量机算法进行自动分类。该机制已经在五类体裁的语料上得到实现,并获得了较好的效果。 相似文献
12.
基于TF-IDF和余弦相似度的文本分类方法 总被引:1,自引:0,他引:1
文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习功能。该文提出一种新的文本分类方法,包括三个步骤: 基于TF-IDF方法提取类别关键词;通过类别关键词和待分类文本关键词的相似性进行文本分类;在分类过程中更新类别关键词改进分类器性能。仿真实验结果表明,本文提出方法的准确度较目前常用方法有较大提高,在实验数据集上分类准确度达到90%,当文本数据量较大时,分类准确度可达到95%。算法初次使用时,需要一定的训练样本和训练时间,但分类时间可下降到其他算法的十分之一。该方法具有自学习模块,在分类过程中,可以根据分类经验自动更新类别关键词,保证分类器准确率,具有很强的现实应用性。 相似文献
13.
为了进一步提高支持向量机分类的准确性和泛化能力,提出一种基于支持向量机的改进二叉树分类算法.首先介绍支持向量机的基本原理,总结了常见的多分类器分类算法及其特点,结合现有分类算法的优点,为分类器引入了不同的权值,提出二叉树改进分类算法,有效避免了常用分类算法不足.通过仿真实验,与典型的多类分类算法对比,验证该算法的有效性,为多类分类预测研究提供了一条有效的途径. 相似文献
14.
15.
短文本特征稀疏、上下文依赖性强的特点,导致传统长文本分类技术不能有效地被直接应用。为了解决短文本特征稀疏的问题,提出基于Sentence-LDA主题模型进行特征扩展的短文本分类方法。该主题模型是隐含狄利克雷分布模型(Latent Dirichlet Allocation, LDA)的扩展,假设一个句子只产生一个主题分布。利用训练好的Sentence-LDA主题模型预测原始短文本的主题分布,从而将得到的主题词扩展到原始短文本特征中,完成短文本特征扩展。对扩展后的短文本使用支持向量机(Support Vector Machine, SVM)进行最后的分类。实验显示,与传统的基于向量空间模型(Vector Space Model,VSM)直接表示短文本的方法比较,本文提出的方法可以有效地提高短文本分类的准确率。 相似文献
16.
Deep Web自动分类是建立深网数据集成系统的前提和基础。提出了一种基于领域特征文本的Deep Web分类方法。首先借助本体知识对表达同一语义的不同词汇进行了概念抽象,进而给出了领域相关度的定义,并将其作为特征文本选择的量化标准,避免了人为选取的主观性和不确定性;在接口向量模型构建中,考虑了不同特征文本对于分类作用的差异,提出了一种改进的W-TFIDF权重计算方法;最后采用KNN算法对接口向量进行了分类。对比实验证明,利用所提方法选择的特征文本是准确有效的,新的特征文本权重计算方法能显著地提高分类精度,且在KNN算法中表现出较好的稳定性。 相似文献
17.
摘要:跨领域分类旨在利用已标记的源领域信息来为概率分布不同,未标记的目标领域训练一个精确的分类器。已有工作大多以文本主题为特征表现形式,并基于共享主题来建立领域间独有主题的映射关系,从而达到跨领域学习的目的。然而,现实中领域间的连接可以是多角度的,而这种基于单一共享主题的映射方式,存在语义表示不完备和偏差性等问题,从而影响跨领域分类精度。基于此,提出一种基于多桥映射的跨领域分类方法,通过提取多重的共享主题和领域独有主题,并以多重共享主题为桥梁来建立领域独有主题之间的多重映射关系,从而实现跨领域的分类。在20Newsgroups和Reuters-21578数据集上的实验结果表明,和同类算法相比,所提算法在分类精度上具有优越性。 相似文献
18.
SVM在文本分类中的应用是近年来文本分类领域重要的进展之一。许多实验表明,SVM在文本分类中比其他的机器学习算法表现出更高的分类精度,但在大规模数据上的收敛速度较慢,成为SVM在实际应用中的一大缺点。球向量机是一种比SVM更快的机器学习方法。本文将BVM应用于文本分类。实验表明,BVM在文本分类中的应用具有与SVM相当的精 度,而且比SVM有更少的训练时间。 相似文献
19.
特征选择在文本分类中是非常必要的,这是由于它可以使分类更加有效与准确。本文根据特征选择方法χ2统计方法的不足,对χ2统计进行改进,并在支持向量机分类算法上进行实验。实验结果表明改进的方法可以提高分类的准确度。 相似文献
20.
鲍翠梅 《计算机应用与软件》2010,27(5):197-199
在文本自动分类中,针对如何进行文本特征的选择和提取这一关键和基础性工作,提出用支持向量度量词汇对分类的贡献,然后进行文本特征的提取。实验结果表明,该方法可以在确保分类信息不损失的前提下,降低向量空间的维数,提高分类器效率和分类准确率。 相似文献