首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
邮件过滤中一种改进的特征选择方法研究   总被引:1,自引:0,他引:1  
特征选择是基于内容的垃圾邮件过滤的重要过程,它有效地改善过滤效率和精度.文中分析了IG和CHI应用到垃圾邮件过滤中存在的不足,设计了一种改进的评价函数.而由于这种评价函数的特征选择方法只度量了特征与类的关系,忽略了特征之间依赖的关系,因此进一步用基于互信息的聚类方法来消除特征间冗余.实验结果表明该特征选择方法有效地提高了邮件过滤的性能.  相似文献   

2.
基于内容的邮件过滤本质是二值文本分类问题。特征选择在分类之前约简特征空间以减少分类器在计算和存储上的开销,同时过滤部分噪声以提高分类的准确性,是影响邮件过滤准确性和时效性的重要因素。但各特征选择算法在同一评价环境中性能不同,且对分类器和数据集分布特征具有依赖性。结合邮件过滤自身特点,从分类器适应性、数据集依赖性及时间复杂度三个方面评价与分析各特征选择算法在邮件过滤领域的性能。实验结果表明,优势率和文档频数用于邮件过滤时垃圾邮件识别的准确率较高,运算时间较少。  相似文献   

3.
针对传统CHI算法忽略特征词的词频易导致重要特征词被漏选的问题,结合特征选择时Filter类算法速度快、Wrapper类算法准确率高的特点,提出一种将改进CHI(TDF-CHI)算法与随机森林特征选择(RFFS)相结合的特征选择算法。先利用TDF-CHI算法计算特征词的文档频率及词频与类别的相关程度来进行特征选择,去除冗余特征;再通过RFFS算法度量剩余特征的重要性,进行二次特征选择,优化特征集合,使分类器的性能进一步提升。为了验证改进算法的优越性,利用新闻文本数据,在常用的分类器上进行测试。实验表明,改进算法相比传统CHI算法所选特征词具有更好的分类效果,提高了分类器的准确率和召回率。  相似文献   

4.
网络游戏在全球范围内迅速发展,其用户不断增加,因此游戏数据流的识别有着重要的现实意义。利用Wireshark,抓取不同类型的网络游戏流数据,包括大型多人在线角色扮演类、第一人称射击类、实时策略类游戏和卡牌类等游戏,对游戏流识别进行研究。采用协议过滤和IP过滤的方法对数据进行预处理,分别对下行和上行数据进行大量的统计特征分析,发现包大小信息熵、下上行包数目之比和PPS(Packets Per Second)等特征适用于游戏流分类。分类实验结果表明,利用IP过滤和提取出的特征组合可以有效地提高识别准确率。  相似文献   

5.
林伟 《微机发展》2011,(9):242-244,249
贝叶斯分类方法在英文邮件过滤中效果良好,在中文环境下一直表现不佳,而特征选择是垃圾邮件过滤中的重要步骤,它能够有效地改善过滤效果。文中以成词概率作为特征选择的基础,用构造的方法形成候选特征集,然后进一步用信息增益的方法来度量特征与类的关系,选择信息增益较大的N个特征做为最后的特征向量空间。在此基础上利用贝叶斯方法对邮件进行分类,实验结果验证了该方法在分类时间和分类效果上都优于传统的基于机械分词的贝叶斯方法。  相似文献   

6.
基于支持向量机的邮件过滤   总被引:1,自引:0,他引:1  
随着万维网的兴起和电子邮件的快速发展,大量的垃圾电子邮件也随之在互联网上泛滥.电子邮件过滤就是要在大量邮件中过滤出垃圾邮件,帮助用户找到所需的邮件。本文讨论了基于机器学习方法实现垃圾邮件过滤的原理,提出一种改进的基于支持向量机的邮件过滤技术,该方法使用互信息度函数,结合Z-测试进行特征选择,使用SVM(支持向量机)构造分类超平面来进行文本分类。实验表明,提高了中文邮件过滤的准确性。  相似文献   

7.
煤矿突水是较为典型的矿井水害之一。为提高煤层底板突水预测的效率与准确率,提出基于PSO_SVM_Adaboost的煤层底板突水预测模型。在总结相关算法理论基础上,设计PSO_SVM_Adaboost算法流程。为验证模型的可行性及有效性,通过引入UCI经典分类数据集进行实验。综合考虑煤层底板突水主要影响因素,确定煤层底板突水预测的评判指标。选取华北矿区60组实测数据为实验样本,利用主成分分析消除原始指标变量间的相关性,将消除相关性的变量作为PSO_SVM_Adaboost模型的输入向量,并进一步对比分析样本数据处理前后应用模型的预测效果,比较PSO_SVM_Adaboost模型、PSO_SVM模型、SVM模型的预测准确率。结果表明:主成分分析能有效地消除样本中冗余信息,简化模型结构,提高模型预测准确率与运算效率;PSO_SVM_Adaboost模型应用于煤层底板突水预测的准确率明显优于其他模型。  相似文献   

8.
葛倩  张光斌  张小凤 《计算机应用》2022,42(10):3046-3053
为解决特征选择ReliefF算法在利用欧氏距离选取近邻样本过程中,算法稳定性差以及选取的特征子集分类准确率低的问题,提出了一种利用最大信息系数(MIC)作为近邻样本选择标准的MICReliefF算法;同时,以支持向量机(SVM)模型的分类准确率作为评价指标,并多次寻优,以自动确定其最优特征子集,从而实现MICReliefF算法与分类模型的交互优化,即MICReliefF-SVM自动特征选择算法。在多个UCI公开数据集上对MICReliefF-SVM算法的性能进行了验证。实验结果表明,MICReliefF-SVM自动特征选择算法不仅可以筛除更多的冗余特征,而且可以选择出具有良好稳定性和泛化能力的特征子集。与随机森林(RF)、最大相关最小冗余(mRMR)、相关性特征选择(CFS)等经典的特征选择算法相比,MICReliefF-SVM算法具有更高的分类准确率。  相似文献   

9.
结合新型文档频和二进制可辨矩阵的特征选择   总被引:1,自引:0,他引:1  
马春华  朱颢东  钟勇 《计算机应用》2009,29(8):2268-2271
特征选择是文本分类的一个核心研究课题。分析了几种经典特征选择方法并总结了它们的不足,提出了一个新型文档频,引入粗糙集理论,并给出了一个基于二进制可辨矩阵的属性约简算法,最后把该属性约简算法同新型文档频结合起来,提供了一个综合的特征选择方法。该方法首先利用新型文档频进行特征初选以过滤掉一些词条,然后利用所提属性约简算法消除冗余。通过对人民网的8类新闻组,每类300篇文档的分类实验,结果表明此种特征选择方法在分类准确率和召回率上优于互信息、CHI和信息增益方法。  相似文献   

10.
提出了一种基于K近邻(KNN)原理的快速文本分类算法。该算法不仅具有原始K近邻算法分类效果好的优点,还通过对训练样本进行压缩,消除相似度之间的比较,提高了分类效率。实验表明,该算法用于邮件过滤系统时,分类效果要优于基于朴素贝叶斯分类器的二项独立模型和多项式模型,而分类的时间复杂度与其相当,完全可以应用于实时邮件过滤。  相似文献   

11.
在文本分类中,为了降低计算复杂度,常用的特征选取方法(如IG)都假设特征之间条件独立。该假设将引入严重的特征冗余现象。为了降低特征子集的冗余度,本文提出了一种基于最小冗余原则(minimal RedundancyPrinciple,MRP)的特征选取方法。通过考虑不同特征之间的相关性,选择较小冗余度的特征子集。实验结果显示基于最小冗余原则方法能够改善特征选取的效果,提高文本分类的性能。  相似文献   

12.
比较研究了与类别信息无关的文档频率和与类别信息有关的信息增益、互信息和χ2统计特征选择方法,在此基础上分析了以往直接组合这两类特征选择方法的弊端,并提出基于相关性和冗余度的联合特征选择算法。该算法将文档频率方法分别与信息增益、互信息和χ2统计方法联合进行特征选择,旨在删除冗余特征,并保留有利于分类的特征,从而提高文本情感分类效果。实验结果表明,该联合特征选择方法具有较好的性能,并且能够有效降低特征维数。  相似文献   

13.
针对F-score特征选择算法不能揭示特征间互信息而不能有效降维这一问题,应用去相关的方法对F-score进行改进,利用德语情感语音库EMO-DB,在提取语音情感特征的基础上,根据支持向量机(SVM)的分类精度选择出分类效果最佳的特征子集。与F-score特征选择算法对比,改进后的算法实现了候选特征集较大幅度的降维,选择出了有效的特征子集,同时得到了较理想的语音情感识别效果。  相似文献   

14.
特征选择是文本分类技术中重要的处理步骤,特征词选择的优劣直接关系到后续文本分类结果的准确率。使用传统特征选择方法如互信息(MI)、信息增益(IG)、χ2统计量(CHI)等提取的特征词仍存在冗余。针对这一问题,通过结合词频-逆文档率(TF_IDF)和最大相关最小冗余标准(MRMR),提出了一种基于MRMR的特征词二次选取方法TFIDF_MRMR。实验结果表明,该方法可以较好地减少特征词之间的冗余,提高文本分类的准确率。  相似文献   

15.
The curse of high dimensionality in text classification is a worrisome problem that requires efficient and optimal feature selection (FS) methods to improve classification accuracy and reduce learning time. Existing filter-based FS methods evaluate features independently of other related ones, which can then lead to selecting a large number of redundant features, especially in high-dimensional datasets, resulting in more learning time and less classification performance, whereas information theory-based methods aim to maximize feature dependency with the class variable and minimize its redundancy for all selected features, which gradually becomes impractical when increasing the feature space. To overcome the time complexity issue of information theory-based methods while taking into account the redundancy issue, in this article, we propose a new feature selection method for text classification termed correlation-based redundancy removal, which aims to minimize the redundancy using subsets of features having close mutual information scores without sequentially seeking already selected features. The idea is that it is not important to assess the redundancy of a dominant feature having high classification information with another irrelevant feature having low classification information and vice-versa since they are implicitly weakly correlated. Our method, tested on seven datasets using both traditional classifiers (Naive Bayes and support vector machines) and deep learning models (long short-term memory and convolutional neural networks), demonstrated strong performance by reducing redundancy and improving classification compared to ten competitive metrics.  相似文献   

16.
特征选择就是从特征集合中选择出与分类类别相关性强而特征之间冗余性最小的特征子集,这样一方面可以提高分类器的计算效率,另一方面可以提高分类器的泛化能力,进而提高分类精度。基于互信息的特征相关性和冗余性的评价准则,在实际应用中存在以下的问题:(1)变量的概率计算困难,进而影响特征的信息熵计算困难;(2)互信息倾向于选择值较多的特征;(3)基于累积加和的候选特征与特征子集之间冗余性度量准则在特征维数较高的情况下容易失效。为了解决上述问题,提出了基于归一化模糊互信息最大的特征评价准则,基于模糊等价关系计算变量的信息熵、条件熵、联合熵;利用联合互信息最大替换累积加和的度量方法;基于归一化联合互信息对特征重要性进行评价;基于该准则建立了基于前向贪婪搜索的特征选择算法。在UCI机器学习标准数据集上的多组实验,证明算法能够有效地选择出对分类类别有效的特征子集,能够明显提高分类精度。  相似文献   

17.
针对基于三维视觉指导的运动想象脑机接口多通道冗余信息较多、分类准确率差的问题,提出了一种基于小波包分解(WPD)—共空间滤波(CSP)—自适应差分进化(ADE)的模式脑电信号特征提取与选择分类方法。首先,对采集的多通道运动想象脑电信号进行WPD变化,划分出精细的子频带;然后,分别将WPD变换后的每个子空间作为CSP的输入,得到对应的特征向量;最后,使用ADE算法对特征向量进行选择,选择出用于分类的最佳特征子集。采用WPD-CSP-ADE模式进行特征提取与选择,较经典的WPD-CSP方法在分类正确率、特征个数方面有着更好的表现。同时,所提算法分类性能明显优于遗传算法、粒子群算法。实验结果表明,WPD-CSP-ADE方法能够有效地提高分类正确率,同时减少了用于分类的特征个数。  相似文献   

18.
改进ReliefF算法在图像型垃圾邮件检测中的应用研究*   总被引:1,自引:0,他引:1  
图像型垃圾邮件的传播给社会和人民生活造成了极大的负面影响。一些垃圾图像过滤技术的应用在一定程度上遏制了它的泛滥,但是在时间消耗和精确度方面很难兼顾。在对垃圾邮件图像的特征数据深入分析后,提出一种基于特征冗余度的ReliefF特征选择算法(R-ReliefF算法)。本算法首先获取图像特征,结合数据特征进行离散化,并对这些离散化后的特征集合进行优化,最后应用在垃圾图像识别上。对比发现,优化后提取的特征子集在识别垃圾邮件图像方面既减少了时间消耗,又提高了垃圾图像识别的精确度。  相似文献   

19.
利用改进的信息增益特征选择的方法来提取特征词,基于向量空间模型构造邮件的特征向量,最后用支持向量机算法对邮件进行过滤。实验表明,改进后的信息增益特征选择方法对邮件过滤是很有效的。  相似文献   

20.
Feature selection is used to choose a subset of relevant features for effective classification of data. In high dimensional data classification, the performance of a classifier often depends on the feature subset used for classification. In this paper, we introduce a greedy feature selection method using mutual information. This method combines both feature–feature mutual information and feature–class mutual information to find an optimal subset of features to minimize redundancy and to maximize relevance among features. The effectiveness of the selected feature subset is evaluated using multiple classifiers on multiple datasets. The performance of our method both in terms of classification accuracy and execution time performance, has been found significantly high for twelve real-life datasets of varied dimensionality and number of instances when compared with several competing feature selection techniques.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号