首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
采用TF-IDF和Bernoulli两种模型构造邮件向量,首先详细测试了CHI降维策略对线性支持向量机进行邮件分类的影响。将基于核函数的支持向量机引入到垃圾邮件过滤中,对基于线性核、多项式核和径向基核的支持向量机在邮件分类中的准确率和训练时间进行了比较,分析了训练样本不平衡对分类的影响,并从理论上对实验结果进行了分析,实验结果证明基于径向基核函数的SVM分类器对垃圾邮件有较好的过滤效果。  相似文献   

2.
支持向量机在垃圾邮件过滤中能达到较高的分类准确率,实际应用中,将正常邮件误判为垃圾邮件会给用户造成更大的损失。该文提出一个基于代价敏感支持向量机的垃圾邮件过滤方案,通过为正类和负类训练样本设置不同的错误惩罚系数对分类器进行训练,在保证较高的垃圾邮件召回率的前提下,尽可能降低正常邮件的误判率(假阳性率)。实验结果表明,该方案能有效地提高过滤器的整体性能,更好地满足垃圾邮件过滤的实际要求。  相似文献   

3.
研究垃圾邮件过滤准确率问题,电子邮件是一种高维、复杂的特殊文本,单一支持向量机、K近邻等传统模型均难以识别垃圾邮件,导致过滤正确率低.为了提高了垃圾邮件过滤正确率,提出一种K近邻和支持向量机相融合的垃圾邮件过滤模型(SVM-KNN).首先将邮件特征向量输入到支持向量机学习,找到支持向量集,然后计算待识别邮件与最优超平面间的距离,距离大于阈值,便采用支持向量机识别邮件类型,否则用K近邻识别邮件类型.仿真结果表明,SVM-KNN很好地解决单一模型存在的难题,提高了垃圾邮件过滤正确率,是一种有效的电子邮件管理的手段.  相似文献   

4.
一种有效的垃圾邮件过滤新方法   总被引:3,自引:0,他引:3  
林琛  李弼程 《计算机应用》2006,26(8):1980-1982
受到信息粒度原理的启发,给出了一种有效的垃圾邮件过滤新方法。该方法训练过程是将训练样本集合中合法邮件类和垃圾邮件类拆分成四个小类,得到四个小类的类中心向量,从粒度原理角度来看,就是采用更细的粒度来描述训练样本的先验知识。过滤过程则将新进来的邮件分别与四个小类的类中心向量进行相似度比较,最终来判定所属类别。在公共垃圾邮件语料库上测试新方法,同时与目前过滤性能较高的KNN方法进行比较,结果显示新方法具有过滤精度高,过滤速度快等优点。  相似文献   

5.
王祖辉  姜维 《计算机工程》2009,35(13):188-189,207
针对中英文混合垃圾邮件过滤问题,提出一种基于支持向量机(SVM)的过滤方法和融合多种分类特征的框架.通过改进SVM中线性核的表示方式,解决存储空间和计算最问题.通过领域术语自动抽取技术,增强垃圾邮件过滤的语义单元识别能力,提高垃圾邮件分类性能.在跨语言大规模语料库上的实验表明,采用SVM比采用Good-Turing算法平滑的朴素贝叶斯模型泛化性能提高了6.13%,分类精度比最大熵模型提高了8.18%.  相似文献   

6.
电子邮件给人们带来极大便利,但垃圾邮件的日益泛滥,也给人们带来了极大的不便和危害.传统的邮件过滤方法的过滤精度较低,不能很好满足需要.文中提出了一种基于向量空间模型的电子邮件过滤系统,并对向量空间模型进行了改进:采用字作为文本向量的特征表示,并且在字频向量的特征提取时采用了一种新的特征提取函数,从而提高了邮件分类的精度,达到了较好的过滤垃圾邮件的目的.  相似文献   

7.
基于贝叶斯公式的垃圾邮件过滤方法   总被引:8,自引:0,他引:8  
伴随着电子邮件的广泛使用,垃圾邮件泛滥成灾,严重影响了人们正常的学习、工作和生活。本文提出了一种改进的基于贝叶斯公式垃圾邮件过滤技术。我们采用了基于词熵的特征项提取方法,并且使用特征项单词出现频率来表示向量,推导出相应的贝叶斯计算公式。实验表明,我们的方法使垃圾邮件过滤的整体性能都有明显提高。  相似文献   

8.
该文提出一种多层grams特征抽取方法来提升基于在线支持向量模型的垃圾邮件过滤器。基于在线支持向量机模型的垃圾邮件过滤器在大规模垃圾邮件数据集已取得了很好的过滤效果,但与逻辑回归模型相比,计算性能的耗时是巨大的,很难被工业界所运用。该文提出的多层grams特征抽取方法能够有效减少特征数,抽取更精准有效的特征,大幅降低模型的运行时间,同时提升过滤器的过滤效果。实验表明,该方法使得在线支持向量机模型的运行时间从10337s减少到3784s,同时模型(1-ROCA)%降低了一半。  相似文献   

9.
贝叶斯算法在垃圾邮件过滤中应用广泛,但在中文垃圾邮件过滤中性能较低。本文通过聚类的思想,提出一种基于后缀数组聚类(SAC)的中文邮件特征项抽取方法,并给出了不同特征项抽取方法下贝叶斯算法的中文垃圾邮件过滤实验数据对比。实验表明,该方法显著提高了中文垃圾邮件的过滤性能。  相似文献   

10.
提出了一种基于支持向量机的改进分类方法.该方法将特征空间分类超平面附近的样本分类,交由特征空间和样本空间中的K-近邻集体投票表决。方法应用于垃圾邮件的过滤之中,邮件合法性误判发生的概率可被有效降低。最后通过垃圾邮件过滤实例验证了该方法的有效性。  相似文献   

11.
基于覆盖算法的垃圾邮件过滤   总被引:2,自引:0,他引:2  
电子邮件系统分类的正确性与风险性是评价邮件系统好坏的关键因素,邮件过滤是文本分类问题的一种特殊应用.将神经网络中的覆盖算法引入到邮件过滤中,结合多种特征降维方法进行邮件分类实验,并与SVM方法进行了比较.给出一个结合覆盖算法、合适的特征选择与降维方法的分类器,可以实现较好的效果.另外,根据垃圾邮件过滤在实际使用中的最小风险性的要求,从风险角度分析了覆盖算法对测试样本进行分类时的过程.根据分析结果提出对其拒识样本的处理过程进行改进,通过改变非垃圾邮件所属覆盖的影响范围降低了垃圾邮件过滤时的风险.  相似文献   

12.
一种基于多贝叶斯算法的垃圾邮件过滤方法   总被引:5,自引:0,他引:5  
贝叶斯算法在垃圾邮件过滤中应用广泛。针对算法提高精确率和召回率的矛盾,提出了一种新的基于多贝叶斯算法组合的垃圾邮件过滤方法,并给出了不同方法下中、英文垃圾邮件过滤实验数据对比。实验表明该方法显著提高了垃圾邮件的过滤性能。  相似文献   

13.
Content-based spam filtering is a binary text categorization problem. To improve the performance of the spam filtering, feature selection, as an important and indispensable means of text categorization, also plays an important role in spam filtering. We proposed a new method, named Bi-Test, which utilizes binomial hypothesis testing to estimate whether the probability of a feature belonging to the spam satisfies a given threshold or not. We have evaluated Bi-Test on six benchmark spam corpora (pu1, pu2, pu3, pua, lingspam and CSDMC2010), using two classification algorithms, Naïve Bayes (NB) and Support Vector Machines (SVM), and compared it with four famous feature selection algorithms (information gain, χ2-statistic, improved Gini index and Poisson distribution). The experiments show that Bi-Test performs significantly better than χ2-statistic and Poisson distribution, and produces comparable performance with information gain and improved Gini index in terms of F1 measure when Naïve Bayes classifier is used; it achieves comparable performance with the other methods when SVM classifier is used. Moreover, Bi-Test executes faster than the other four algorithms.  相似文献   

14.
针对深层神经网络初始化方法不明确、泛化能力差而导致解决垃圾邮件过滤时效果较差的问题,提出了基于深度置信网络的分类方法。深度置信网络通过逐层无监督的方法来预训练网络,实现了网络的初始化。在LingSpam,SpamAssassin和Enron1三个广泛使用的数据集上,通过与目前最好的垃圾邮件过滤方法支持向量机(SVM)在分类性能上进行比较,实验结果表明深度置信网络的垃圾邮件过滤方法是有效的,获得了较高的准确率和召回率。  相似文献   

15.
基于小样本学习的垃圾邮件过滤方法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对客户端垃圾邮件过滤器难以获取足够训练样本的问题,提出一种基于小样本学习的垃圾邮件过滤方法,利用容易获取的未标记样本提高垃圾邮件过滤的性能。该方法使用已标记的小样本邮件实例集训练一个初始Na?ve Bayes分类器,以此标注未标记邮件,再使用所有数据训练新的分类器,利用EM算法进行迭代直至收敛。实验结果证明,当给定5个~20个已标记小样本训练邮件时,该方法可有效提高垃圾邮件过滤性能。  相似文献   

16.
分类问题是机器学习与数据挖掘研究中最重要的问题之一,其中文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。设计了一种基于贝叶斯概率推理方法的垃圾邮件过滤系统。它用概率测试的权重来描述数据间的相关性,从而解决了数据间的不一致性,甚至是相互独立的问题。作为互联网的第一大应用,电子邮件一直受到广大网民的青睐,但近些年来,垃圾邮件问题日益严重。将上述研究的结果应用到目前互联网上垃圾邮件的过滤工作中,实验证明了方法的有效性。  相似文献   

17.
The annoyance of spam emails increasingly plagues both individuals and organizations. In response, most of prior research investigates spam filtering as a classical text categorization task, in which training examples must include both spam (positive examples) and legitimate (negative examples) emails. However, in many spam filtering scenarios, obtaining legitimate emails for training purpose can be more difficult than collecting spam and unclassified emails. Hence, it is more appropriate to construct a classification model for spam filtering that uses positive training examples (i.e., spam) and unlabeled instances only and does not require legitimate emails as negative training examples. Several single-class learning techniques, such as PNB and PEBL, have been proposed in the literature. However, they incur inherent limitations with regard to spam filtering. In this study, we propose and develop an ensemble approach, referred to as E2, to address these limitations. Specifically, we follow the two-stage framework of PEBL but extend each stage with an ensemble strategy. The empirical evaluation results from two spam filtering corpora suggest that our proposed E2 technique generally outperforms benchmark techniques (i.e., PNB and PEBL) and exhibits more stable performance than its counterparts.  相似文献   

18.
高性能中文垃圾邮件过滤器   总被引:2,自引:0,他引:2  
设计并实现了基于在线过滤模式高性能中文垃圾邮件过滤器,能够较好地识别不断变化的垃圾邮件。以逻辑回归模型为基础,该文提出了字节级n元文法提取邮件特征,并采用TONE(Train On or Near Error)方法训练过滤器。在多个大规模中文垃圾邮件过滤公开评测数据上的实验结果表明,该文过滤器的性能在TREC 06C数据上优于当年评测的最好成绩,在SEWM 07立即反馈上1-ROCA值达到了0.000 0%,并明显优于SEWM 08评测在线过滤任务中的所有其他方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号