共查询到20条相似文献,搜索用时 187 毫秒
1.
电子邮件是互联网的最重要应用之一,尽管给人们日常工作和生活带来很大便利,但也带来了一种令人讨厌的副产品一一垃圾邮件。对邮件进行分类已成为当前的一个研究热点,而如何进行邮件特征选择,是邮件分类中一个基本也是很重要的问题。本文在分析比较几种用于邮件分类的典型特征选择方法基础上,提出一种新的结合了Mitra's算法和顺序前进搜索法优点的邮件特征选择方法。实验结果表明该方法能够改进邮件分类的准确率,验证了本文方法的有效性和可行性。 相似文献
2.
特征选择是邮件过滤重要的环节,特征的好坏不仅影响分类的准确率,还直接影响到分类器训练和分类的开销。比较了常用的CHI选择、互信息(MI)、信息增益(IG)和SVM 特征选择算法在垃圾邮件过滤中的效果,针对这些方法只排序而未消除特征间冗余的缺点,提出了利用特征词间条件概率和分类区分度消除冗余的混合邮件特征选择方法。实验结果表明:方法效果良好,提高了邮件分类准确率。 相似文献
3.
现有过滤型特征选择算法并未考虑非线性数据的内在结构,从而分类准确率远远低于封装型算法,对此提出一种基于再生核希尔伯特空间映射的高维数据特征选算法。首先,基于分支定界法建立搜索树,并对其进行搜索;然后,基于再生核希尔伯特空间映射分析非线性数据的内部结构;最终,根据数据集的内部结构选择最优的距离计算方法。对比仿真实验结果表明,本方法与封装型特征选择算法具有接近的分类准确率,同时在计算效率上具有明显的优势,适用于大数据分析。 相似文献
4.
5.
6.
7.
特征选择和分类器设计是网络入侵分类的关键,为了提高网络入侵分类率,针对特征选择问题,提出一种蚁群算法优化SVM选择和加权特征的网络入侵分类方法.首先利用支持向量机的分类精度和特征子集维数加权构造了综合适应度指标,然后利用蚁群算法的全局寻优和多次优解搜索能力实现特征子集搜索;然后选择网络数据的关键特征,计算信息增益获得各个特征权重,并根据特征权重构建加权支持向量机的网络入侵分类器;最后设计了局部细化搜索方式,使得特征选择结果不含冗余特征的同时提高了算法的收敛性,并通过KDD1999数据集验证了算法有效性.结果表明,ACO-SVM有效降低了特征维数,提高了网络入侵检测正确率和检测速度. 相似文献
8.
9.
基于覆盖算法的垃圾邮件过滤 总被引:2,自引:0,他引:2
电子邮件系统分类的正确性与风险性是评价邮件系统好坏的关键因素,邮件过滤是文本分类问题的一种特殊应用.将神经网络中的覆盖算法引入到邮件过滤中,结合多种特征降维方法进行邮件分类实验,并与SVM方法进行了比较.给出一个结合覆盖算法、合适的特征选择与降维方法的分类器,可以实现较好的效果.另外,根据垃圾邮件过滤在实际使用中的最小风险性的要求,从风险角度分析了覆盖算法对测试样本进行分类时的过程.根据分析结果提出对其拒识样本的处理过程进行改进,通过改变非垃圾邮件所属覆盖的影响范围降低了垃圾邮件过滤时的风险. 相似文献
10.
11.
分析邮件特征对邮件分类的影响,提出了双层分类方法并用于邮件服务智能代理.它包括邮件长度分类、邮件采集与预处理、文本分词、特征选取和邮件分类器等功能模块.此代理不仅可使邮件服务器具有自动过滤垃圾邮件的能力,也可以用于电子政务和电子商务,对邮件自动分类和转发.该双层分类方法首先对邮件按长度进行分类,然后根据邮件的不同长度类分别使用不同的贝叶斯分类器,从而实现垃圾邮件的过滤.实验表明它有效地提高了邮件分类的效率. 相似文献
12.
针对目前垃圾邮件过滤技术仅依赖单一邮件特征实施邮件分类、对邮件特征变化的适应性较差等局限,提出一种基于用户反馈的混合型垃圾邮件过滤方法。以用户社会网络关系为基础,借助用户反馈机制分别实现对基于内容与基于身份标识的邮件分类知识的动态更新;在此基础上采用贝叶斯模型,实现邮件的内容特征与发件人身份标识特征在邮件分类中的有机结合。实验结果表明,与传统的过滤方法比较,所提方法在邮件特征动态变化的环境下能够获得更好的邮件分类效果,邮件分类的总体召回率、查准率、精确率均能达到90%以上。所提方法能够在保证邮件分类性能的同时,有效提高邮件分类对邮件特征变化的适应性,是已有垃圾邮件过滤技术的重要补充。 相似文献
13.
针对互联网上垃圾邮件给用户带来种种困扰的问题,本文提出了一种基于贝叶斯最小风险分类方法的邮件过滤系统。本方法通过设置损失代价函数,在过滤大部分垃圾邮件的同时,保证了将合法邮件保留,避免了将有用邮件误分类为垃圾邮件时,给用户带来的损失。实验结果表明,本文提出的垃圾邮件过滤系统效果较好。 相似文献
14.
高光谱数据在物质分类识别领域得到了广泛应用,但存在数据量大、波段间相关性高等问题,严重影响分类精度及应用。针对以上问题分析了已有的波段选择方法,提出了基于波段聚类及监督分类的遗传算法,对高光谱数据进行波段选择:采用[K]均值聚类算法对波段数据进行聚类分析,构造波段子集合;利用分类器族分类精度构造适应度函数,采用遗传算法对波段子集合进行优化选择。最后用阔叶林高光谱数据对提出的算法进行对比实验,实验结果表明针对分类应用,提出的算法能够非常有效地选择高光谱谱段。 相似文献
15.
K-匿名算法通过对数据的泛化、隐藏等手段使得数据达到K-匿名条件,在隐藏特征的同时考虑数据的隐私性与分类性能,可以视为一种特殊的特征选择方法,即K-匿名特征选择。K-匿名特征选择方法结合K-匿名与特征选择的特点使用多个评价准则选出K-匿名特征子集。过滤式K-匿名特征选择方法难以搜索到所有满足K-匿名条件的候选特征子集,不能保证得到的特征子集的分类性能最优,而封装式特征选择方法计算成本很大,因此,结合过滤式特征排序与封装式特征选择的特点,改进已有方法中的前向搜索策略,设计了一种混合式K-匿名特征选择算法,使用分类性能作为评价准则选出分类性能最好的K-匿名特征子集。在多个公开数据集上进行实验,结果表明,所提算法在分类性能上可以超过现有算法并且信息损失更小。 相似文献
16.
基于文本分类的过滤方法是目前解决垃圾邮件危机的主要手段,但仍然缺乏规范化的模式和方法以及较高检索性能的过滤机制。该文提出了借助邮件特征域的思想解决上述问题,介绍了特征词与特征域的概念,从利用类间相关评估函数对训练语料进行分析入手,构建特征词典。分析了邮件特征域在邮件主题表达力方面的重要作用,给出了基于特征域词频TF的权值计算方法,并改进了传统的文本相似度计算概率模型。通过实验加以验证,说明提出的方法在邮件过滤的查全率、查准率等几个性能评价指标上,比传统的Rocchio方法有了明显改善。 相似文献
17.
18.
19.
文本特征是自然语言处理中的关键部分。针对目前文本特征的高维性和稀疏性问题,提出了一种基于Word2Vec词嵌入和高维生物基因选择遗传算法(GARBO)的文本特征选择方法,从而便于后续文本分类任务。首先,优化数据输入形式,使用Word2Vec词嵌入方法将文本转变成类似基因表示的词向量;然后,将高维词向量模拟基因表达方式进行迭代进化;最后,使用随机森林分类器对特征选择后的文本进行分类。使用中文评论数据集对所提出的方法进行实验,实验结果表明了优化后的GARBO特征选择方法在文本特征选择上的有效性,该方法成功地将300维特征降低为50维更有价值的特征,分类准确率达到88%,与其他过滤式文本特征选择方法相比,能够有效地降低文本特征维度,提高文本分类效果。 相似文献