首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
电子邮件是互联网的最重要应用之一,尽管给人们日常工作和生活带来很大便利,但也带来了一种令人讨厌的副产品一一垃圾邮件。对邮件进行分类已成为当前的一个研究热点,而如何进行邮件特征选择,是邮件分类中一个基本也是很重要的问题。本文在分析比较几种用于邮件分类的典型特征选择方法基础上,提出一种新的结合了Mitra's算法和顺序前进搜索法优点的邮件特征选择方法。实验结果表明该方法能够改进邮件分类的准确率,验证了本文方法的有效性和可行性。  相似文献   

2.
特征选择是邮件过滤重要的环节,特征的好坏不仅影响分类的准确率,还直接影响到分类器训练和分类的开销。比较了常用的CHI选择、互信息(MI)、信息增益(IG)和SVM 特征选择算法在垃圾邮件过滤中的效果,针对这些方法只排序而未消除特征间冗余的缺点,提出了利用特征词间条件概率和分类区分度消除冗余的混合邮件特征选择方法。实验结果表明:方法效果良好,提高了邮件分类准确率。  相似文献   

3.
现有过滤型特征选择算法并未考虑非线性数据的内在结构,从而分类准确率远远低于封装型算法,对此提出一种基于再生核希尔伯特空间映射的高维数据特征选算法。首先,基于分支定界法建立搜索树,并对其进行搜索;然后,基于再生核希尔伯特空间映射分析非线性数据的内部结构;最终,根据数据集的内部结构选择最优的距离计算方法。对比仿真实验结果表明,本方法与封装型特征选择算法具有接近的分类准确率,同时在计算效率上具有明显的优势,适用于大数据分析。  相似文献   

4.
基于词共现模型的垃圾邮件过滤方法研究   总被引:3,自引:1,他引:2  
垃圾邮件过滤就是对邮件做出是垃圾或非垃圾的判断。传统的表示邮件的方法是在向量空间模型基础上通过信息增益等特征选择方法提取一部分词来表示邮件内容,存在语义信息不足的问题。该文提出一种将传统方法和词共现模型结合起来表示邮件特征的新方法,再采用交叉覆盖算法对邮件进行分类得到邮件分类器。实验表明,该文提出的邮件过滤算法与传统方法相比提高了过滤性能,词共现选择的维度要比传统方法选择的维度更具有代表性。  相似文献   

5.
随着电子邮件的普及与应用,垃圾邮件的泛滥也越来越受到人们的关注。而如何进行邮件特征选择,是邮件分类中的重要问题。在介绍词频和倒文档频度的基础上,对几种常用的特征选择算法进行了分析和比较,针对现有特征选择算法过于机械的缺点,将关键字权重引入到邮件分类中,提出了一种基于关键词权重的TF*IDF特征选择改进算法,并进行了实验验证。实验结果表明,采用该算法改进后的贝叶斯过滤器具有更好的过滤效果。  相似文献   

6.
基于内容的邮件过滤本质是二值文本分类问题。特征选择在分类之前约简特征空间以减少分类器在计算和存储上的开销,同时过滤部分噪声以提高分类的准确性,是影响邮件过滤准确性和时效性的重要因素。但各特征选择算法在同一评价环境中性能不同,且对分类器和数据集分布特征具有依赖性。结合邮件过滤自身特点,从分类器适应性、数据集依赖性及时间复杂度三个方面评价与分析各特征选择算法在邮件过滤领域的性能。实验结果表明,优势率和文档频数用于邮件过滤时垃圾邮件识别的准确率较高,运算时间较少。  相似文献   

7.
特征选择和分类器设计是网络入侵分类的关键,为了提高网络入侵分类率,针对特征选择问题,提出一种蚁群算法优化SVM选择和加权特征的网络入侵分类方法.首先利用支持向量机的分类精度和特征子集维数加权构造了综合适应度指标,然后利用蚁群算法的全局寻优和多次优解搜索能力实现特征子集搜索;然后选择网络数据的关键特征,计算信息增益获得各个特征权重,并根据特征权重构建加权支持向量机的网络入侵分类器;最后设计了局部细化搜索方式,使得特征选择结果不含冗余特征的同时提高了算法的收敛性,并通过KDD1999数据集验证了算法有效性.结果表明,ACO-SVM有效降低了特征维数,提高了网络入侵检测正确率和检测速度.  相似文献   

8.
邮件过滤中特征选择算法的研究及改进   总被引:1,自引:0,他引:1  
对基于内容的垃圾邮件过滤技术尤其是特征选择算法进行了研究.在此基础上,对其中的互信息算法进行了分析,并将其与邮件过滤的特点结合起来进行,在频度、集中度及分散度三个指标上进行改进,在原互信息算法已考虑分散度的基础上,引入词频来表征频度,以类别贡献比来衡量特征对分类的贡献,即表征集中度,并给出了改进后的互信息计算公式及算法.最后使用真实邮件训练集进行了邮件分类的实验,实验结果证明对互信息算法的改进能有效提高邮件分类性能.  相似文献   

9.
基于覆盖算法的垃圾邮件过滤   总被引:2,自引:0,他引:2  
电子邮件系统分类的正确性与风险性是评价邮件系统好坏的关键因素,邮件过滤是文本分类问题的一种特殊应用.将神经网络中的覆盖算法引入到邮件过滤中,结合多种特征降维方法进行邮件分类实验,并与SVM方法进行了比较.给出一个结合覆盖算法、合适的特征选择与降维方法的分类器,可以实现较好的效果.另外,根据垃圾邮件过滤在实际使用中的最小风险性的要求,从风险角度分析了覆盖算法对测试样本进行分类时的过程.根据分析结果提出对其拒识样本的处理过程进行改进,通过改变非垃圾邮件所属覆盖的影响范围降低了垃圾邮件过滤时的风险.  相似文献   

10.
基于粗糙集的加权朴素贝叶斯邮件过滤方法   总被引:5,自引:3,他引:2  
邮件过滤中有两个关键问题,一是如何选择有效的邮件特征集,二是设计较好的邮件过滤算法。在对邮件特性进行分析的基础上,综合邮件头及邮件内容的主要形象特征给出了一种新的邮件特征集提取方法。用粗糙集的信息观点度量了各属性的重要性,并以此为权重进行加权朴素贝叶斯垃圾邮件过滤,有效地解决了朴素贝叶斯分类中的条件依赖性问题。通过在中英文邮件集上的测试实验,证明了所提出的邮件过滤方法的有效性。  相似文献   

11.
分析邮件特征对邮件分类的影响,提出了双层分类方法并用于邮件服务智能代理.它包括邮件长度分类、邮件采集与预处理、文本分词、特征选取和邮件分类器等功能模块.此代理不仅可使邮件服务器具有自动过滤垃圾邮件的能力,也可以用于电子政务和电子商务,对邮件自动分类和转发.该双层分类方法首先对邮件按长度进行分类,然后根据邮件的不同长度类分别使用不同的贝叶斯分类器,从而实现垃圾邮件的过滤.实验表明它有效地提高了邮件分类的效率.  相似文献   

12.
黄国伟  许昱玮 《计算机应用》2013,33(7):1861-1865
针对目前垃圾邮件过滤技术仅依赖单一邮件特征实施邮件分类、对邮件特征变化的适应性较差等局限,提出一种基于用户反馈的混合型垃圾邮件过滤方法。以用户社会网络关系为基础,借助用户反馈机制分别实现对基于内容与基于身份标识的邮件分类知识的动态更新;在此基础上采用贝叶斯模型,实现邮件的内容特征与发件人身份标识特征在邮件分类中的有机结合。实验结果表明,与传统的过滤方法比较,所提方法在邮件特征动态变化的环境下能够获得更好的邮件分类效果,邮件分类的总体召回率、查准率、精确率均能达到90%以上。所提方法能够在保证邮件分类性能的同时,有效提高邮件分类对邮件特征变化的适应性,是已有垃圾邮件过滤技术的重要补充。  相似文献   

13.
马晓敏  齐永波 《微计算机信息》2007,23(24):116-117,58
针对互联网上垃圾邮件给用户带来种种困扰的问题,本文提出了一种基于贝叶斯最小风险分类方法的邮件过滤系统。本方法通过设置损失代价函数,在过滤大部分垃圾邮件的同时,保证了将合法邮件保留,避免了将有用邮件误分类为垃圾邮件时,给用户带来的损失。实验结果表明,本文提出的垃圾邮件过滤系统效果较好。  相似文献   

14.
高光谱数据在物质分类识别领域得到了广泛应用,但存在数据量大、波段间相关性高等问题,严重影响分类精度及应用。针对以上问题分析了已有的波段选择方法,提出了基于波段聚类及监督分类的遗传算法,对高光谱数据进行波段选择:采用[K]均值聚类算法对波段数据进行聚类分析,构造波段子集合;利用分类器族分类精度构造适应度函数,采用遗传算法对波段子集合进行优化选择。最后用阔叶林高光谱数据对提出的算法进行对比实验,实验结果表明针对分类应用,提出的算法能够非常有效地选择高光谱谱段。  相似文献   

15.
杨柳  李云 《计算机应用》2021,41(12):3521-3526
K-匿名算法通过对数据的泛化、隐藏等手段使得数据达到K-匿名条件,在隐藏特征的同时考虑数据的隐私性与分类性能,可以视为一种特殊的特征选择方法,即K-匿名特征选择。K-匿名特征选择方法结合K-匿名与特征选择的特点使用多个评价准则选出K-匿名特征子集。过滤式K-匿名特征选择方法难以搜索到所有满足K-匿名条件的候选特征子集,不能保证得到的特征子集的分类性能最优,而封装式特征选择方法计算成本很大,因此,结合过滤式特征排序与封装式特征选择的特点,改进已有方法中的前向搜索策略,设计了一种混合式K-匿名特征选择算法,使用分类性能作为评价准则选出分类性能最好的K-匿名特征子集。在多个公开数据集上进行实验,结果表明,所提算法在分类性能上可以超过现有算法并且信息损失更小。  相似文献   

16.
刘慧  马军  雷景生  宋玲 《计算机工程》2006,32(17):60-62,6
基于文本分类的过滤方法是目前解决垃圾邮件危机的主要手段,但仍然缺乏规范化的模式和方法以及较高检索性能的过滤机制。该文提出了借助邮件特征域的思想解决上述问题,介绍了特征词与特征域的概念,从利用类间相关评估函数对训练语料进行分析入手,构建特征词典。分析了邮件特征域在邮件主题表达力方面的重要作用,给出了基于特征域词频TF的权值计算方法,并改进了传统的文本相似度计算概率模型。通过实验加以验证,说明提出的方法在邮件过滤的查全率、查准率等几个性能评价指标上,比传统的Rocchio方法有了明显改善。  相似文献   

17.
针对文本检索中的特征提取和分类问题,提出一种基于内嵌空间支持向量机的特征选择和排序学习方法。与多分类特征选择问题中常用的组合方法不同,本文提出的方法能将一个有序分类问题转化为一个两分类问题,从整体上选择最有效的特征。同时与已有的Ranking SVM相比,该方法在转换过程中学习样本的数量只有线性级的增长,从而大大提高了检索的速度。在人工数据集和标准的文本分类数据集上的实验结果表明,本文所提出的方法能较好地解决文本检索中的特征选择和排序问题。  相似文献   

18.
傅明  任贤  陈曦 《计算机应用》2006,26(10):2304-2306
为提高智能邮件过滤系统的识别能力和抗欺骗能力,设计并实现了一种基于否定选择变异算法的电子邮件过滤器。其机理是应用人工免疫算法使得过滤系统具有自学习、自适应能力,同时采用双层过滤方式来提高系统过滤准确性。试验表明该过滤器在正确率、漏报率、误报率三方面具有良好的性能,达到了预期目的。  相似文献   

19.
张阳  王小宁 《计算机应用》2021,41(11):3151-3155
文本特征是自然语言处理中的关键部分。针对目前文本特征的高维性和稀疏性问题,提出了一种基于Word2Vec词嵌入和高维生物基因选择遗传算法(GARBO)的文本特征选择方法,从而便于后续文本分类任务。首先,优化数据输入形式,使用Word2Vec词嵌入方法将文本转变成类似基因表示的词向量;然后,将高维词向量模拟基因表达方式进行迭代进化;最后,使用随机森林分类器对特征选择后的文本进行分类。使用中文评论数据集对所提出的方法进行实验,实验结果表明了优化后的GARBO特征选择方法在文本特征选择上的有效性,该方法成功地将300维特征降低为50维更有价值的特征,分类准确率达到88%,与其他过滤式文本特征选择方法相比,能够有效地降低文本特征维度,提高文本分类效果。  相似文献   

20.
徐冰  郭绍忠  黄永忠 《计算机应用》2007,27(6):1548-1550
研究了利用朴素贝叶斯分类算法对电子邮件进行分类处理,引入了活跃网络和活跃度的概念,提出了犯罪组织通讯网络的描述算法以及组织结构的挖掘算法,实验证明了算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号