首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 375 毫秒
1.
结合同义向量聚合和特征多类别的KNN分类算法   总被引:1,自引:0,他引:1  
特征选择是文本分类的关键阶段,其选择过程将影响文本分类速度与精度。χ2统计量能很好地体现词和类别之间的关系,是文本分类领域特征提取阶段的重要方法之一。分析了χ2统计量在文本分类中的应用,发现CHI向量所表达的与各类别关系的特征词无法全面表达出此类的概念含义,依赖于训练集中出现的特征情况,且该向量仅用于特征选择阶段;针对χ2统计量特征词的表达局限及其向量没有得到充分利用的问题,提出结合同义向量聚合和特征多类别的改进KNN分类算法,该方法能够综合考虑特征所表达的含义,且通过特征集多类别矩阵使CHI向量也能在分类阶段起到提高整个算法效率的作用。实验结果与分析表明,该改进算法明显提高了文本分类效率,并且提高了分类的精度。  相似文献   

2.
何玲  罗玉双 《福建电脑》2010,26(1):83-83,98
文本自动分类中,比较常用的特征选择算法是通过评估函数来计算特征对类别的区别能力.虽然对这些方法已有了大量的改进,但是特征选择还有进一步改进的空间。本文提出了一种新的文本自动分类特征选择算法——基于相对比较法,该方法考虑特征与特征之间的相关性,不仅选择出对文本区别度大的特征词作为特征词集.还减少了冗余的特征词,从而降低文本特征向量的维数,提高文本分类的效率。  相似文献   

3.
针对传统CHI算法忽略特征词的词频易导致重要特征词被漏选的问题,结合特征选择时Filter类算法速度快、Wrapper类算法准确率高的特点,提出一种将改进CHI(TDF-CHI)算法与随机森林特征选择(RFFS)相结合的特征选择算法。先利用TDF-CHI算法计算特征词的文档频率及词频与类别的相关程度来进行特征选择,去除冗余特征;再通过RFFS算法度量剩余特征的重要性,进行二次特征选择,优化特征集合,使分类器的性能进一步提升。为了验证改进算法的优越性,利用新闻文本数据,在常用的分类器上进行测试。实验表明,改进算法相比传统CHI算法所选特征词具有更好的分类效果,提高了分类器的准确率和召回率。  相似文献   

4.
特征选择是邮件过滤重要的环节,特征的好坏不仅影响分类的准确率,还直接影响到分类器训练和分类的开销。比较了常用的CHI选择、互信息(MI)、信息增益(IG)和SVM 特征选择算法在垃圾邮件过滤中的效果,针对这些方法只排序而未消除特征间冗余的缺点,提出了利用特征词间条件概率和分类区分度消除冗余的混合邮件特征选择方法。实验结果表明:方法效果良好,提高了邮件分类准确率。  相似文献   

5.
为了提高情感文本分类的准确率,对英文情感文本不同的预处理方式进行了研究,同时提出了一种改进的卡方统计量(CHI)特征提取算法.卡方统计量是一种有效的特征选择方法,但分析发现存在负相关现象和倾向于选择低频特征词的问题.为了克服不足之处,在考虑到词频、集中度和分散度等因素的基础上,考虑文本的长短不均衡和特征词分布,对词频进行归一化,提出了一种改进的卡方统计量特征提取算法.利用经典朴素贝叶斯和支持向量机分类算法在均衡语料、非均衡语料和混合长短文本语料上实验,实验结果表明:新的方法提高了情感文本分类的准确率.  相似文献   

6.
一种文本特征选择方法的研究   总被引:2,自引:2,他引:0  
在文本分类中,对高维的特征集进行降维是非常重要的,不但可以提高分类精度和效率,也可以找出富含信息的特征子集.而特征选择是有效降低特征向量维数的一种方法.目前常用的一些特征选择算法仅仅考虑了特征词与类别间的相关性,而忽略了特征词与特征词之间的相关性,从而存在特征冗余,影响了分类效果.为此,在分析了常用的一些特征选择算法之后,提出了一种基于mRMR模型的特征选择方法.实验表明,该特征选择方法有助于提高分类性能.  相似文献   

7.
文本的特征选择作为文本分类的关键步骤,它的好坏将直接影响文本分类的准确率。本文在介绍文本分类的背景之下,针对传统特征提取方法的不足,提出一种新的特征选择方法。在《同义词词林》基础上,计算特征词之间的语义相关度,进行特征选择。实验结果表明该方法有效的降低了特征空间的高维稀疏性和减少噪声,提高了分类精度,体现出更好的分类效果。  相似文献   

8.
王辉  张成锁  卓呈祥 《计算机工程》2011,37(10):167-169
提出一种改进的相对熵特征选择方法。该方法基于一个类别的文本属性通常由有限个特征词决定的特点,利用相对熵的基本原理,选取最能区分类内与类外文本的词作为文本分类的特征。在特定文本语料库中进行的实验结果表明,该方法可以降低文本特征维数,提高分类准确率。  相似文献   

9.
传统的文本分类方法仅使用一种模型进行分类,容易忽略不同类别特征词出现交叉的情况,影响分类性能。为提高文本分类的准确率,提出基于主题相似性聚类的文本分类算法。通过CHI和WordCount相结合的方法提取类特征词,利用K-means算法进行聚类并提取簇特征词构成簇特征词库。在此基础上,通过Adaptive Strategy算法自适应地选择fasttext、TextCNN或RCNN模型进行分类,得到最终分类结果。在AG News数据集上的实验结果表明,该算法可较好地解决不同类别特征词交叉的问题,与单独使用的fasttext、TextCNN、RCNN模型相比,其文本分类性能显著提升。  相似文献   

10.
文本特征维数通常高达几万且特征之间存在大量冗余和不相关信息,从而导致传统的分类方法效率低、分类准确率低.为了提高文本分类的快速性和准确性,提出了一种遗传算法(GA)和支持向量机(SVM)相结合的文本分类方法.把文本特征组合看作遗传算法中一个染色体,并进行二进制编码,将支持向量机分类准确率作为遗传算法的适应度函数,对每一...  相似文献   

11.
传统的基于特征选择的分类算法中,由于其采用的冗余度和相关度评价标准单一,从而使得此类算法应用范围受限。针对这个问题,本文提出一种新的最大相关最小冗余特征选择算法,该算法在度量特征之间冗余度的评价准则中引入了两种不同的评价准则;在度量特征与类别之间的相关度中引入了4种不同的评价准则,衍生出8种不同的特征选择算法,从而使得该算法应用范围增大。此外,由于传统的最大相关最小冗余特征选择算法不能根据用户实际需求的数据维度进行特征选择。所以,引入了指示向量 $\lambda $ 来刻画用户实际的数据维度需求,提出了一种新的目标函数来求解最优特征子集,利用支持向量机对4个UCI数据集的特征子集进行了实验,最后,利用分类正确率、成对单边T检验充分验证了该算法的有效性。  相似文献   

12.
In this paper, a novel hybrid method, which integrates an effective filter maximum relevance minimum redundancy (MRMR) and a fast classifier extreme learning machine (ELM), has been introduced for diagnosing erythemato-squamous (ES) diseases. In the proposed method, MRMR is employed as a feature selection tool for dimensionality reduction in order to further improve the diagnostic accuracy of the ELM classifier. The impact of the type of activation functions, the number of hidden neurons and the size of the feature subsets on the performance of ELM have been investigated in detail. The effectiveness of the proposed method has been rigorously evaluated against the ES disease dataset, a benchmark dataset, from UCI machine learning database in terms of classification accuracy. Experimental results have demonstrated that our method has achieved the best classification accuracy of 98.89% and an average accuracy of 98.55% via 10-fold cross-validation technique. The proposed method might serve as a new candidate of powerful methods for diagnosing ES diseases.  相似文献   

13.
针对基于三维视觉指导的运动想象脑机接口多通道冗余信息较多、分类准确率差的问题,提出了一种基于小波包分解(WPD)—共空间滤波(CSP)—自适应差分进化(ADE)的模式脑电信号特征提取与选择分类方法。首先,对采集的多通道运动想象脑电信号进行WPD变化,划分出精细的子频带;然后,分别将WPD变换后的每个子空间作为CSP的输入,得到对应的特征向量;最后,使用ADE算法对特征向量进行选择,选择出用于分类的最佳特征子集。采用WPD-CSP-ADE模式进行特征提取与选择,较经典的WPD-CSP方法在分类正确率、特征个数方面有着更好的表现。同时,所提算法分类性能明显优于遗传算法、粒子群算法。实验结果表明,WPD-CSP-ADE方法能够有效地提高分类正确率,同时减少了用于分类的特征个数。  相似文献   

14.
分类问题普遍存在于现代工业生产中。在进行分类任务之前,利用特征选择筛选有用的信息,能够有效地提高分类效率和分类精度。最小冗余最大相关算法(mRMR)考虑最大化特征与类别的相关性和最小化特征之间的冗余性,能够有效地选择特征子集;但该算法存在中后期特征重要度偏差大以及无法直接给出特征子集的问题。针对该问题,文中提出了结合邻域粗糙集差别矩阵和mRMR原理的特征选择算法。根据最大相关性和最小冗余性原则,利用邻域熵和邻域互信息定义了特征的重要度,以更好地处理混合数据类型。基于差别矩阵定义了动态差别集,利用差别集的动态演化有效去除冗余属性,缩小搜索范围,优化特征子集,并根据差别矩阵判定迭代截止条件。实验选取SVM,J48,KNN和MLP作为分类器来评价该特征选择算法的性能。在公共数据集上的实验结果表明,与已有算法相比,所提算法的平均分类精度提升了2%左右,同时在特征较多的数据集上能够有效地缩短特征选择时间。所提算法继承了差别矩阵和mRMR的优点,能够有效地处理特征选择问题。  相似文献   

15.
Cao  Wenyan  Wang  Ranfeng  Fan  Minqiang  Fu  Xiang  Wang  Haoran  Wang  Yulong 《Applied Intelligence》2022,52(1):732-752

Intelligent separation is a core technology in the transformation, upgradation, and high-quality development of coal. Realising the intelligent recognition and accurate classification of coal flotation froth is a key technology of intelligent separation. At present, the coal flotation process relies on artificial recognition of froth features for adjusting the reagent dosage. However, owing to the low accuracy and subjectivity of artificial recognition, some problems arise, such as reagent wastage and unqualified product quality. Thus, this paper proposes a new froth image classification method based on the maximal-relevance-minimal-redundancy (MR MR)-semi-supervised Gaussian mixture model (SSGMM) hybrid model for recognition of reagent dosage condition in the coal flotation process. First, the features of morphology, colour, and texture are extracted, and the optimal froth image features are screened out using the maximal-relevance-minimal-redundancy (MRMR) feature selection algorithm based on class information. Second, the traditional GMM clusterer is improved, called SSGMM, by introducing a small number of marked samples, the traditional GMM’ problems of unclear training goals, invisible clustering results, and artificially judged clustering results are solved. Then a new hybrid classification model is proposed by combining the MRMR with the modified GMM (SSGMM) which can be named as (MRMR - SSGMM). The optimal froth image features are screened by MRMR to provide the SSGMM classifier. In the process of training and learning the feature samples, using the marked feature samples of froth images to guide the unmarked feature samples. The information of marked feature samples of froth images is mapped to the unmarked feature samples, the classification of the froth images were realised. Finally, the accuracy of the SSGMM classifier is used as the evaluation criterion for the screened features by MRMR. By automatically executing the entire learning process to find the best number of froth image features and the optimal image features, so that the classifier achieves the maximum classification accuracy. Experimental results show that the proposed classification method achieves the best results in accuracy and time, compared with other benchmark classification methods. Application results show that the method can provide reliable guidance for the adjustment of the reagent dosage, realize the accurate and timely control of the reagent dosage, reduce the consumption of the reagent and the incidence of production accidents, and stabilize the product quality in the coal flotation production process.

  相似文献   

16.
李平  徐新  董浩  邓旭 《计算机应用》2018,38(1):132-136
可分性指数(SI)可用来选择各类地物的有效分类特征,但在多维特征以及地物可分性较好的情况下,只利用可分性指数进行特征选择不能有效去除特征之间的冗余性。基于此,提出了利用可分性指数并辅以顺序后退(SBS)算法进行特征选择与多层支持向量机(SVM)分类的方法。首先,由各类地物在所有特征下的可分性指数选择分类地物和特征;然后,以该地物的分类精度为评估依据,利用顺序后退法筛选特征;其次,由剩余地物之间的可分性指数和顺序后退法依次选择各类地物的分类特征;最后利用多层SVM进行分类。实验结果表明,与只利用可分性指数选择特征进行多层SVM分类的方法相比,所提方法的分类精度提高了2%,各类地物的分类精度均高于86%,且运行时间为原来方法的一半。  相似文献   

17.
一种基于组策略的过滤式特征选择算法   总被引:1,自引:0,他引:1  
MRMR算法具有快速、高效等优势,在处理高维数据方面较为流行。基于此,提出一种基于组策略的MRMR改进算法(MRMRE),该算法不仅考虑单个特征属性的相关性与冗余性,同时针对特征组间的相互关系进行研究。算法以MRMR算法为框架,以CCA作为度量基准,选择SVMs作为基分类器,使其特征选择效果提升。在UCI机器学习数据库中图像与基因序列数据集上的大量实验表明:与MRMR算法相比,所提出的算法其特征选择结果具有更高的结果稳定性与分类精度。  相似文献   

18.
为了提高文本分类算法的效率和精度,必须使用特征选择算法来降低特征空间的维数。然而许多常用特征选择算法在选择属性时,只是利用特征的权重而并没有考虑特征之间的隐含关系,使得得到的特征集存在一定的冗余,并不具备较好的代表性。首先给出了一个基于最小词频的文档频方法,并用它过滤掉一些词条以降低文本矩阵的稀疏性,然后使用LSA进行词语间的语义分析,消除同义词和多义词的影响,提高了文本分类的速度与精确度。实验结果表明此种特征选择方法效果良好。  相似文献   

19.
特征选择是用机器学习方法提高转发预测精度和效率的关键步骤,其前提是特征提取.目前,特征选择中常用的方法有信息增益(Information Gain,IG)、互信息和卡方检验(CHI-square test,CHI)等,传统特征选择方法中出现低频词引起的信息增益和卡方检验的负相关、干扰计算等问题,导致分类准确率不高.本文首先针对低频词引起的信息增益和卡方检验的负相关、干扰计算等问题进行研究,分别引入平衡因子和词频因子来提高算法的准确率;其次,根据微博信息传播的特点,结合改进的IG算法和CHI算法,提出了一种基于BIG-WFCHI(Balance Information Gain-Word Frequency CHI-square test)的特征选择方法.实验分析中,本文采用基于最大熵模型、支持向量机、朴素贝叶斯分类器、KNN和多层感知器5种分类器对两个异构数据集进行了测试.实验结果表明,本文提出的方法能有效消除无关特征和冗余特征,提高分类精度,并减少运算时间.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号