首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
垃圾邮件过滤就是在线对邮件做出Spam(垃圾)或Ham(非垃圾)的判断,这是一种根据客户反馈不断自学习的过程。本文抽取邮件的语言特征和行为特征构建多个简单过滤器,然后采用集成学习方法组合这些简单过滤器,获得了比简单过滤器更高的性能。实验表明单一特征学习的计算复杂性低、速度较快,而集成学习的效果更好。本文提出的将SVM集成学习用于邮件过滤的方法,在各种集成学习方法中效果最好。
  相似文献   

2.
本文提出了一种个性化垃圾邮件过滤方法,它能够根据用户反馈自动学习出用户兴趣,并随时间的推移自动适应用户兴趣的变化。该方法首先抽取邮件的语言特征和行为特征构建多个基于规则的单独过滤器,然后采用SVM集成学习方法组合这些单独过滤器的结果。为了提高学习速度、减少用户提供反馈的数量,本文采用了主动学习方法挑选更加富含知识的邮件请求用户给出反馈。实验结果表明:集成学习和主动学习相结合的个性化过滤方法在个性化程度、分类准确率、过滤速度以及自动学习能力等方面具有更好的性能。  相似文献   

3.
基于MapReduce的贝叶斯垃圾邮件过滤机制   总被引:1,自引:0,他引:1  
陶永才  薛正元  石磊 《计算机应用》2011,31(9):2412-2416
贝叶斯邮件过滤器具有较强的分类能力和较高的准确性,但前期的邮件集训练与学习耗用大量系统资源和网络资源,影响系统效率。提出一种基于MapReduce技术的贝叶斯垃圾邮件过滤机制,一方面对传统贝叶斯过滤技术进行改进,另一方面利用MapReduce模型的海量数据处理优势优化邮件集训练与学习。实验表明,较之目前流行的传统贝叶斯算法、K最近邻(KNN)算法和支持向量机(SVM)算法,基于MapReduce的贝叶斯垃圾邮件过滤机制在召回率、查准率和精确率方面保持了较好的表现,同时降低了邮件学习和分类成本,提高了系统执行效率。  相似文献   

4.
本文论述了基于内容的反垃圾邮件过滤器的构造方法。介绍了邮件表示中的几个技术问题:特征定义和选择,以及特征权值的估计;探讨了以朴素贝叶斯、支持向量机和最大熵模型为代表的机器学习方法如何构造反垃圾邮件过滤器,并对它们作了简要的评价;介绍了几个常用的衡量邮件过滤器性能的指标。  相似文献   

5.
傅明  任贤  陈曦 《计算机应用》2006,26(10):2304-2306
为提高智能邮件过滤系统的识别能力和抗欺骗能力,设计并实现了一种基于否定选择变异算法的电子邮件过滤器。其机理是应用人工免疫算法使得过滤系统具有自学习、自适应能力,同时采用双层过滤方式来提高系统过滤准确性。试验表明该过滤器在正确率、漏报率、误报率三方面具有良好的性能,达到了预期目的。  相似文献   

6.
邮件过滤是指从大量的邮件中过滤掉含有无用信息的垃圾邮件,以帮助用户得到所需的有用邮件。本文将介绍一个基于向量空间模型的OUTLOOK邮件过滤器的设计与实现,它包含了邮件过滤和训练两个子系统,其过滤方法还对传统的向量空间模型法做了改进,使之更适合于垃圾邮件过滤。  相似文献   

7.
通过参考现有主要垃圾邮件过滤器的不足之处,提出一种基于本体的邮件内容过滤器.将概念分析的理论引入到汉语的句法分析中,以解决邮件口语化用语中的断句问题.同时,设计了基于描述逻辑的本体结构,用以支持邮件过滤器进行汉语句法分析和语义理解,并给出了基于描述逻辑的句法分析方法和语义推理方法.为中文垃圾邮件的过滤方法进行了有益的探索.  相似文献   

8.
对于大量的电子邮件,传统的分类方式是使用基于关键字比较的分类系统的过滤器对邮件进行分类,这种方式存在缺乏灵活性、分类粗糙等缺点.本文提出了一种基于形式概念分析(FCA)的邮件分类模型,在传统规则分类方法的基础上引入FCA分类机制,即利用FCA来抽取隐含在邮件文档中的潜在的概念关系,分析文档之间的相关性.用户对邮件文档的浏览是在一个根据概念划分的概念格结构上进行的.试验验证了该模型的可行性,试验结果表明该模型较好地解决了概括性的分类问题.  相似文献   

9.
分层垃圾邮件过滤器的设计与实现   总被引:1,自引:0,他引:1  
由于垃圾邮件变化多端,日益泛滥,传统的、单一的反垃圾邮件方法对新型的垃圾邮件已经无能为力,为了攻克这一难题,我们设计了一个包含贝叶斯算法、反向DNS查询以及系统级和用户级过滤等的分层反垃圾邮件技术的邮件服务器.该服务器除了能收发邮件、过滤邮件,还可以通过自动和手动两种方式进行学习,以适应垃圾邮件的变化,有效的屏蔽垃圾邮件.本文着重介绍该服务器的垃圾过滤器所采用的各种技术和主要结构.  相似文献   

10.
在垃圾邮件过滤中,针对过滤器对合法邮件的误判问题,提出一种改进的垃圾邮件过滤算法。该算法对信息增益的条件熵估计方法作了改进,结合最小风险贝叶斯决策方法,在英文语料库上进行实验,并采用召回率和正确率对算法进行评价分析。实验结果表明,改进后的方法可提高过滤器对合法邮件的识别能力,降低对合法邮件的误判,减少用户的损失。  相似文献   

11.
支持向量机在垃圾邮件过滤中能达到较高的分类准确率,实际应用中,将正常邮件误判为垃圾邮件会给用户造成更大的损失。该文提出一个基于代价敏感支持向量机的垃圾邮件过滤方案,通过为正类和负类训练样本设置不同的错误惩罚系数对分类器进行训练,在保证较高的垃圾邮件召回率的前提下,尽可能降低正常邮件的误判率(假阳性率)。实验结果表明,该方案能有效地提高过滤器的整体性能,更好地满足垃圾邮件过滤的实际要求。  相似文献   

12.
王庆幸  徐从富  何俊 《计算机科学》2008,35(10):197-199
研究如何实现Logistic回归模型在中文垃圾邮件过滤中的应用,给出了关键技术,并将其应用于SEWM20071)垃圾邮件语料库上,取得了较优的过滤效果.还分析了影响正常邮件误判率、垃圾邮件误判率和精确率等因子.对比实验结果表明,应用于中文垃圾邮件过滤的Logistic回归模型与SVM相比具有更优的ROC指标和更快的运行效率.  相似文献   

13.
As the importance of email increases, the amount of malicious email is also increasing, so the need for malicious email filtering is growing. Since it is more economical to combine commodity hardware consisting of a medium server or PC with a virtual environment to use as a single server resource and filter malicious email using machine learning techniques, we used a Hadoop MapReduce framework and Naïve Bayes among machine learning methods for malicious email filtering. Naïve Bayes was selected because it is one of the top machine learning methods(Support Vector Machine (SVM), Naïve Bayes, K-Nearest Neighbor(KNN), and Decision Tree) in terms of execution time and accuracy. Malicious email was filtered with MapReduce programming using the Naïve Bayes technique, which is a supervised machine learning method, in a Hadoop framework with optimized performance and also with the Python program technique with the Naïve Bayes technique applied in a bare metal server environment with the Hadoop environment not applied. According to the results of a comparison of the accuracy and predictive error rates of the two methods, the Hadoop MapReduce Naïve Bayes method improved the accuracy of spam and ham email identification 1.11 times and the prediction error rate 14.13 times compared to the non-Hadoop Python Naïve Bayes method.  相似文献   

14.
Bo Yu  Zong-ben Xu   《Knowledge》2008,21(4):355-362
The growth of email users has resulted in the dramatic increasing of the spam emails during the past few years. In this paper, four machine learning algorithms, which are Naïve Bayesian (NB), neural network (NN), support vector machine (SVM) and relevance vector machine (RVM), are proposed for spam classification. An empirical evaluation for them on the benchmark spam filtering corpora is presented. The experiments are performed based on different training set size and extracted feature size. Experimental results show that NN classifier is unsuitable for using alone as a spam rejection tool. Generally, the performances of SVM and RVM classifiers are obviously superior to NB classifier. Compared with SVM, RVM is shown to provide the similar classification result with less relevance vectors and much faster testing time. Despite the slower learning procedure, RVM is more suitable than SVM for spam classification in terms of the applications that require low complexity.  相似文献   

15.
根据文本分类通常包含多异类数据源的特点,提出了多核SVM学习算法。该算法将分类核矩阵的二次组合重新表述成半无限规划,并说明其可以通过重复利用SVM来实现有效求解。实验结果表明,提出的算法可以用于数百个核的结合或者是数十万个样本的结合,对于多异类数据源的文本分类具有较高的查全率和查准率。  相似文献   

16.
In classification tasks, active learning is often used to select out a set of informative examples from a big unlabeled dataset. The objective is to learn a classification pattern that can accurately predict labels of new examples by using the selection result which is expected to contain as few examples as possible. The selection of informative examples also reduces the manual effort for labeling, data complexity, and data redundancy, thus improves learning efficiency. In this paper, a new active learning strategy with pool-based settings, called inconsistency-based active learning, is proposed. This strategy is built up under the guidance of two classical works: (1) the learning philosophy of query-by-committee (QBC) algorithm; and (2) the structure of the traditional concept learning model: from-general-to-specific (GS) ordering. By constructing two extreme hypotheses of the current version space, the strategy evaluates unlabeled examples by a new sample selection criterion as inconsistency value, and the whole learning process could be implemented without any additional knowledge. Besides, since active learning is favorably applied to support vector machine (SVM) and its related applications, the strategy is further restricted to a specific algorithm called inconsistency-based active learning for SVM (I-ALSVM). By building up a GS structure, the sample selection process in our strategy is formed by searching through the initial version space. We compare the proposed I-ALSVM with several other pool-based methods for SVM on selected datasets. The experimental result shows that, in terms of generalization capability, our model exhibits good feasibility and competitiveness.  相似文献   

17.
一种基于聚类的PU主动文本分类方法   总被引:1,自引:0,他引:1  
刘露  彭涛  左万利  戴耀康 《软件学报》2013,24(11):2571-2583
文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive andunlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地移除正例,从而可以获得更多的可信反例.结合SVM 主动学习和改进的Rocchio 构建分类器,并采用改进的TFIDF(term frequency inverse document frequency)进行特征提取,可以显著提高分类的准确度.分别在3 个不同的数据集中测试了分类结果(RCV1,Reuters-21578,20 Newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度.  相似文献   

18.
基于相关向量机的机器学习算法研究与应用   总被引:4,自引:0,他引:4  
介绍一种新的机器学习方法——相关向量机(Relevance Vector Machine)。相关向量机是一种新的基于贝叶斯统计学习理论的学习方法,与支持向量机(Support Vector Machine)的相比,可以有概率型输出、更稀疏和核函数选择更自由等优点。详细论述相关向量机的研究现况、理论基础及算法思想,并通过仿真实验说明该方法曲有效性,最后展望相关向量机的研究发展趋势,且提出相关向量机中仍需解决的关键问题。  相似文献   

19.

This paper offers a recurrent neural network to support vector machine (SVM) learning in stochastic support vector regression with probabilistic constraints. The SVM is first converted into an equivalent quadratic programming (QP) formulation in linear and nonlinear cases. An artificial neural network for SVM learning is then proposed. The presented neural network framework guarantees obtaining the optimal solution of the SVM problem. The existence and convergence of the trajectories of the network are studied. The Lyapunov stability for the considered neural network is also shown. The efficiency of the proposed method is shown by three illustrative examples.

  相似文献   

20.
分类问题,尤其是文本自动分类一直是机器学习与数据挖掘研究中的研究热点与核心技术,其中如朴素贝叶斯、KNN等近年来得到了广泛的关注和快速的发展。文中在统计学理论的基础上给出了一种基于支持向量机方法的文本分类算法,并设计出了相应的垃圾邮件过滤系统。实验证明与朴素贝叶斯方法相比,该算法极大地提高了分类准确率和查全率,具有应用推广的价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号