首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 189 毫秒
1.
针对传统的文本分类算法存在着各特征词对分类的结果影响相同、分类准确率较低、造成算法时间复杂度增加的问题,提出了一种改进的最大熵C-均值聚类文本分类方法。该方法充分结合了C-均值聚类和最大熵值算法的优点,以香农熵作为最大熵模型中的目标函数,简化分类器的表达形式,然后采用C-均值聚类算法对最优特征进行分类。仿真实验结果表明,与传统的文本分类方法相比,提出的方法能够快速得到最优分类特征子集,大大提高了文本分类准确率。  相似文献   

2.
樊康新 《计算机工程》2009,35(24):191-193
针对朴素贝叶斯(NB)分类器在分类过程中存在诸如分类模型对样本具有敏感性、分类精度难以提高等缺陷,提出一种基于多种特征选择方法的NB组合文本分类器方法。依据Boosting分类算法,采用多种不同的特征选择方法建立文本的特征词集,训练NB分类器作为Boosting迭代过程的基分类器,通过对基分类器的加权投票生成最终的NB组合文本分类器。实验结果表明,该组合分类器较单NB文本分类器具有更好的分类性能。  相似文献   

3.
为了提高脑CT图像的分类正确率,针对分类器中的最小二乘支持向量机(LSSVM)参数优化问题,提出一种改进和声搜索算法优化LSSVM的脑CT图像分类模型(IHS-LSSVM)。将LSSVM参数看作不同乐器的声调组合,通过和声搜索算法的“调音”找到最优参数,并在寻优过程中引入粒子群算法的最优位置更新策略,增强了算法跳出局部极小值的能力,根据最优参数建立脑CT图像分类模型,并对模型的性能进行仿真测试。仿真结果表明,相对于对比模型,IHS-LSSVM不仅提高了脑CT图像分类正确率,而且加快分类速度,是一种有效的脑CT图像分类模型。  相似文献   

4.
文本聚类是指自动地将文本集合分组为不同的类别,应用非常广泛.研究发现,传统的TFIDF文本分类方法存在很多的不足,针对这些不足提出改进.通过使用循环迭代算法根据特征词在类内和类间的分布情况不断优化特征词的选取,获得不断改进的分类.采用支持向量机分类器对文本分类.通过对大批量的数据集测试,该算法显示出较好的特征选择效果,能够有效地提高分类精度.  相似文献   

5.
针对传统CHI算法忽略特征词的词频易导致重要特征词被漏选的问题,结合特征选择时Filter类算法速度快、Wrapper类算法准确率高的特点,提出一种将改进CHI(TDF-CHI)算法与随机森林特征选择(RFFS)相结合的特征选择算法。先利用TDF-CHI算法计算特征词的文档频率及词频与类别的相关程度来进行特征选择,去除冗余特征;再通过RFFS算法度量剩余特征的重要性,进行二次特征选择,优化特征集合,使分类器的性能进一步提升。为了验证改进算法的优越性,利用新闻文本数据,在常用的分类器上进行测试。实验表明,改进算法相比传统CHI算法所选特征词具有更好的分类效果,提高了分类器的准确率和召回率。  相似文献   

6.
为了提高文本自动分类准确率,提出一种改进的蜂群优化神经网络的选择特征的文本数据挖掘算法.该算法将文本特征选择转换成一个多目标优化问题,以特征维数最少、分类正确率最高为选择标准,采用蚁群算法找到最优特征子集,最后神经网络建立文本自动分类器,进行仿真实验测试算法性能.仿真实验结果表明,提出的方法从高维文本最优文本特征,提高了文本自动分类的正确率和识别效率,是一种有效的网络文本挖掘算法.  相似文献   

7.
为提高朴素贝叶斯分类器的分类性能,考虑决策分类过程中条件属性的不同重要程度,提出了一种基于特征选择权重的贝叶斯分类算法。采用卡方值和文档频数相结合的数值来表示特征词的重要程度,对该值进行处理获得每个特征词权重,建立加权贝叶斯分类器。在研究维文特点的基础上,利用该算法构建了一个维文文本分类模型。在搜集到的维文语料库上进行的实验结果表明,该算法比朴素贝叶斯拥有更好的分类性能。  相似文献   

8.
针对互联网短文本特征稀疏和速度更新快而导致的短文本聚类性能较差的问题,本文提出了一种基于特征词向量的短文本聚类算法。首先,定义基于词性和词长度加权的特征词提取公式并提取特征词代表短文本;然后,使用Skip-gram模型(Continous skip-gram model)在大规模语料中训练得到表示特征词语义的词向量;最后,引入词语游走距离(Word mover′s distance,WMD)来计算短文本间的相似度并将其应用到层次聚类算法中实现短文本聚类。在4个测试数据集上的评测结果表明,本文方法的效果明显优于传统的聚类算法,平均F值较次优结果提高了56.41%。  相似文献   

9.
同义词和近义词现象以及强关联语义信息加大了文本向量的特征维数,对文本分类的效率和精度都会带来极大影响.为了有效降低文本向量的特征维数,提出一种基于混合并行遗传聚类的文本特征抽取方法.该方法首先使用K-means聚类算法进行特征词粗粒度聚类,然后采用混合并行遗传算法对各类特征词进行细粒度聚类,最后对各聚类中的特征词进行分析并压缩,得到最终能反映文本类别特征和语义信息的文本特征词集合.实验证明,该方法是一种有效的文本特征抽取方法,能切实提高文本分类的效率和精度.  相似文献   

10.
传统的文本分类方法仅使用一种模型进行分类,容易忽略不同类别特征词出现交叉的情况,影响分类性能。为提高文本分类的准确率,提出基于主题相似性聚类的文本分类算法。通过CHI和WordCount相结合的方法提取类特征词,利用K-means算法进行聚类并提取簇特征词构成簇特征词库。在此基础上,通过Adaptive Strategy算法自适应地选择fasttext、TextCNN或RCNN模型进行分类,得到最终分类结果。在AG News数据集上的实验结果表明,该算法可较好地解决不同类别特征词交叉的问题,与单独使用的fasttext、TextCNN、RCNN模型相比,其文本分类性能显著提升。  相似文献   

11.
基于非线性流形学习和支持向量机的文本分类算法   总被引:1,自引:1,他引:1  
为解决文本自动分类问题,提出一种流形学习和支持向量机相结合的文本分类算法(LLE-LSSVM)。LLE-LSSVM算法利用非线性流形学习算法LEE对高维文本特征进行非线性降维,挖掘出特征内在规律与本征信息,从而得到低维特征空间,然后将其输入到LSSVM中进行学习,同时利用混沌粒子群算法对LSSVM参数进行优化,建立文本分类模型。仿真实验结果表明,LLE-LSSVM算法提高了文本分类准确率,减少了分类运行时间,是一种有效的文本分类算法。  相似文献   

12.
针对现有高光谱图像变分自编码器(variational autoencoder,VAE)分类算法存在空间和光谱特征利用效率低的问题,提出一种基于双通道变分自编码器的高光谱图像深度学习分类算法。通过构建一维条件变分自编码器(conditional variational autoencoder,CVAE)特征提取框架和二维循环通道条件变分自编码(channel-recurrent conditional variational autoencoders,CRCVAE)特征提取框架分别提取高光谱图像的光谱特征和空间特征,将光谱特征向量和空间特征向量叠加形成空谱联合特征向量,将联合特征送入Softmax分类器中进行分类。在Indian pines和Pavia University两种高光谱数据集上进行了分析验证,实验结果显示,与其他算法相比,提出的算法在总分类精度、平均分类精度和Kappa系数等评价指标上至少提高了3.40、2.75和3.57个百分点,结果显示提出的算法得到了最高的分类精度和更好的可视化效果。  相似文献   

13.
张阳  王小宁 《计算机应用》2021,41(11):3151-3155
文本特征是自然语言处理中的关键部分。针对目前文本特征的高维性和稀疏性问题,提出了一种基于Word2Vec词嵌入和高维生物基因选择遗传算法(GARBO)的文本特征选择方法,从而便于后续文本分类任务。首先,优化数据输入形式,使用Word2Vec词嵌入方法将文本转变成类似基因表示的词向量;然后,将高维词向量模拟基因表达方式进行迭代进化;最后,使用随机森林分类器对特征选择后的文本进行分类。使用中文评论数据集对所提出的方法进行实验,实验结果表明了优化后的GARBO特征选择方法在文本特征选择上的有效性,该方法成功地将300维特征降低为50维更有价值的特征,分类准确率达到88%,与其他过滤式文本特征选择方法相比,能够有效地降低文本特征维度,提高文本分类效果。  相似文献   

14.
刘明珍 《计算机工程》2013,(11):131-135
为提高网络入侵检测效果,提出一种结合混沌粒子群优化(CPSO)算法和最小二乘支持向量机(LSSVM)的网络入侵检测模型。将网络特征和LSSVM参数编码成二进制粒子,根据网络入侵检测正确率和特征子集维数权值构造粒子群目标函数。通过粒子群找到最优特征子集和LSSVM参数,同时引入混沌机制保证粒子群的多样性,防止早熟现象的出现,从而建立最优网络入侵检测模型。采用KDD99数据集进行性能测试,结果表明,该模型不仅能获得最优特征子集和LSSVM参数,而且提高了入侵检测速度和正确率,降低了入侵检测误报率和漏报率。  相似文献   

15.
针对单一特征的体育视频分类的正确率低和稳定性差等缺陷,提出一种最小二乘支持向量机(LSSVM)和证据理论相融合的体育视频分类模型(DS-LSSVM)。提取颜色、纹理、亮度、运动矢量场等4种反映体育视频类别特征,将4种单特征的LSSVM初步分类结果作为独立证据构造基本概率指派,运用DS组合规则进行决策级融合,根据分类判决门限给出最终的体育视频分类结果,最后进行仿真实验。结果表明,DS-LSSVM的体育视频分类正确率高达97.90%,相对于参比模型,DS-LSSVM具有体育视频分类正确率高、稳定性好等优势。  相似文献   

16.
为了提高卷烟销售量预测精度,提出了基于一种改进布谷鸟算法(MCS)优化混合核最小二支持向量机(LSSVM)的卷烟销售量预测模型(MCS-LSSVM)。收集卷烟销售量数据,并构建LSSVM学习样本,然后混合核函数的LSSVM对样本进行训练,并采用改进布谷鸟算法对混合核函数参数进行优化,最后建立卷烟销售量预测模型,并用于某卷烟公司卷烟销售的预测。结果表明,相对于对比模型,ICS-LSSVM模型获得了更优的建模效果和更高的预测精度。  相似文献   

17.
文本分类在采用向量空间模型(VSM)表达文本特征时,容易出现特征向量高维且稀疏的现象,为了对原始的文本特征向量进行有效简化,提出了一种基于粒子群(PSO)优化独立分量分析(ICA)进行降维的方法,并将其运用到文本分类中。在该算法中,以负熵作为粒子群算法的适应度函数,依据其高斯性原理作为独立性判别标准对分离矩阵进行自适应更新。实验结果表明,相比于传统的特征降维方法,该方法可以解决高维度文本特征向量降维困难的问题,使得文本分类的效率、准确率显著提升。  相似文献   

18.
文本的表示与文本的特征提取是文本分类需要解决的核心问题,基于此,提出了基于改进的连续词袋模型(CBOW)与ABiGRU的文本分类模型。该分类模型把改进的CBOW模型所训练的词向量作为词嵌入层,然后经过卷积神经网络的卷积层和池化层,以及结合了注意力(Attention)机制的双向门限循环单元(BiGRU)神经网络充分提取了文本的特征。将文本特征向量输入到softmax分类器进行分类。在三个语料集中进行的文本分类实验结果表明,相较于其他文本分类算法,提出的方法有更优越的性能。  相似文献   

19.
针对PU(Positive and Unlabeled)文本分类问题,提出了一种基于图卷积网络的PU文本分类算法(GCN-PU),基本思想是给未标注样本加以不同的损失权重。将未标注样本全部视为负类样本,用以训练基于卷积神经网络的文本分类器;取卷积神经网络的倒数第二层的向量为文本的特征向量,以及对应的类别概率,作为图卷积网络的输入;利用图卷积网络得出的类别概率计算每个未标注样本的损失权重,重新训练文本分类器。不断重复上述三个步骤,直到算法参数稳定。在公开数据集20newsgroup上的实验结果表明,GCN-PU算法优于现有的方法,尤其在正类样本较少的情况下。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号