共查询到19条相似文献,搜索用时 93 毫秒
1.
白宁 《计算机应用与软件》2014,(4):31-34
针对传统垃圾邮件过滤问题中采用单一特征选择方法不能够有效提取训练集中全部重要特征或提取结果存在特征冗余的问题,提出一种基于多种特征选择方法融合的垃圾邮件过滤模型SF_FSF(Spam filtering based on feature selection fusion)。SF_FSF方法通过引入信息融合的概念,将特征选择看成一个决策问题,采用基于平均投票法的信息融合模型进行特征选择结果的融合,以提取垃圾邮件数据集中的重要特征,获得优秀的过滤能力。实验结果表明,SF_FSF方法比基于单一特征选择的垃圾邮件过滤方法得到了更好的过滤结果。 相似文献
2.
垃圾邮件自身的特点决定了消极学习型的文本分类算法更加适合于垃圾邮件过滤问题.但是,以k-NN为代表的消极型文本分类算法却存在着运行效率偏低等诸多缺点,不便于实际使用.为此,该文在向量余弦相似性公式的基础上,提出了一种新的"嵌入式特征选择垃圾邮件过滤模型"和基于此模型的消极学习型垃圾邮件过滤算法.与一些经典算法相比,新算法在显著降低运算开销的同时,巧妙地避免了由此而引起的信息丢失问题,因而在性能与效率两个方面都有明显提高,具有非常高的实际价值. 相似文献
4.
5.
垃圾邮件泛滥已成为网络时代的一个重要问题,随着垃圾邮件的伪装技术的不断更新,以前主要的几种垃圾邮过滤技术面临着新的挑战。文中提出一种新的基于判别模型的垃圾邮件过滤方法,邮件分类器通过不断的学习来更新特征项的权重,当新的信息到达时,计算所有特征项的权重之和,并将其转化为一个概率值,如果此概率值超过某一阈值时,就认定此信息为垃圾邮件;同时将此方法应用到实时邮件处理环境中。实验结果表明,此方法能明显地提高准确度,有效地降低误判率。 相似文献
6.
基于覆盖算法的垃圾邮件过滤 总被引:2,自引:0,他引:2
电子邮件系统分类的正确性与风险性是评价邮件系统好坏的关键因素,邮件过滤是文本分类问题的一种特殊应用.将神经网络中的覆盖算法引入到邮件过滤中,结合多种特征降维方法进行邮件分类实验,并与SVM方法进行了比较.给出一个结合覆盖算法、合适的特征选择与降维方法的分类器,可以实现较好的效果.另外,根据垃圾邮件过滤在实际使用中的最小风险性的要求,从风险角度分析了覆盖算法对测试样本进行分类时的过程.根据分析结果提出对其拒识样本的处理过程进行改进,通过改变非垃圾邮件所属覆盖的影响范围降低了垃圾邮件过滤时的风险. 相似文献
7.
伴随着电子邮件的广泛使用,垃圾邮件泛滥成灾,严重影响了人们正常的学习、工作和生活。拳文针对目前的垃圾邮件主要是由多种商业或政治性类别的垃圾邮件组成的特点,利用学习向量量化网络能把多个子类合并成一个复杂大类的特性,构建了一个反垃圾邮件的LVQ神经网络模型,我们对该LVQ网络模型进行了与其他算法的对比试验,试验表明它比基于贝叶斯公式算法和基于神经网络BP算法的过滤器有更好的性能。 相似文献
8.
赵翠林 《计算机光盘软件与应用》2010,(10):111-111
自从互联网普及以来,电子邮件逐渐成为人们生活中便捷的通信手段之一。但随之产生的垃圾邮件泛滥成灾,污染网络环境,占用大量传输、存储和运算资源,影响了网络的正常运行。垃圾邮件过滤技术逐渐成为信息网络安全研究领域的热点。本文从内容过滤、接入过滤、行为过滤等三方面对垃圾邮件过滤技术的研究现状进行综述。 相似文献
9.
垃圾邮件处理是一项长期研究课题,越来越多的文本分类技术被移植到垃圾邮件处理应用当中。LDA(Latent Dirichlet Allocation)等topic模型在自动摘要、信息获取和其他离散数据应用中受到越来越多的关注。将LDA模型作为一种特征选择方法,引入垃圾邮件处理应用中。将LDA特征选择方法与质心+KNN分类器结合,得到简单的测试用垃圾邮件过滤器。初步实验结果表明,基于LDA的特征选择方法优于通常的IG、MI特征选择方法;测试过滤器的过滤性能与其他过滤器相当。 相似文献
10.
11.
朴素贝叶斯算法在垃圾邮件过滤领域得到了广泛应用,该算法中,特征提取是一个必不可少的环节。过去针对中文的垃圾邮件过滤方法都以词作为文本的特征项单位进行提取,面对大规模的邮件训练样本,这种算法的时间效率会成为邮件过滤技术中的一个瓶颈。对此,提出一种基于短语的贝叶斯中文垃圾邮件过滤方法,在特征项提取阶段结合文本分类领域提出的新的短语分析方法,按照基本名词短语、基本动词短语、基本语义分析规则,以短语为单位进行提取。通过分别以词和短语为单位进行垃圾邮件过滤的对比测试实验证实了所提出方法的有效性。 相似文献
12.
13.
14.
该文提出一种多层grams特征抽取方法来提升基于在线支持向量模型的垃圾邮件过滤器。基于在线支持向量机模型的垃圾邮件过滤器在大规模垃圾邮件数据集已取得了很好的过滤效果,但与逻辑回归模型相比,计算性能的耗时是巨大的,很难被工业界所运用。该文提出的多层grams特征抽取方法能够有效减少特征数,抽取更精准有效的特征,大幅降低模型的运行时间,同时提升过滤器的过滤效果。实验表明,该方法使得在线支持向量机模型的运行时间从10337s减少到3784s,同时模型(1-ROCA)%降低了一半。 相似文献
15.
针对垃圾邮件过滤,首先对获取的垃圾邮件及合法邮件进行分词,预处理,构建文本矢量,然后用四种常用的特征词提取方法进行矢量降维,再在此基础上,给出了一种综合性的特征词提取算法,即按照各个评估函数的排序结果,取它们交集的前n个特征词作为候选词进行分类测试,仿真比较了各个算法中n对分类结果的影响,从而验证了该算法的有效性。 相似文献
16.
17.
18.
本文将分类关联规则挖掘算法应用到文本特征提取领域,给出了一种二次提取方法:在第一阶段,用DF“落差”来初步筛选特征项。第二阶段挖掘分类关联规则。实验证明该方法效果较好;并且在保证精度的情况下,有效降低特征项数目。 相似文献