首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
本文针对垃圾邮件过滤问题,结合中文自身的特点,把广泛适用于英文文本和邮件分类的朴素贝叶斯过滤方法应用在垃圾邮件网关邮件过滤层;把信息增益修剪方法经过改进作为中文特征选择方法,应用在数据管理层;从而极大提高了垃圾邮件的过滤精度。  相似文献   

2.
设计一种基于改进贝叶斯算法的垃圾邮件过滤系统,通过朴素贝叶斯过滤算法以及该算法在反垃圾邮件中的八个处理步骤,分别建立三个哈希表,设置阈值来判别邮件是否为垃圾邮件.  相似文献   

3.
一种基于多贝叶斯算法的垃圾邮件过滤方法   总被引:5,自引:0,他引:5  
贝叶斯算法在垃圾邮件过滤中应用广泛。针对算法提高精确率和召回率的矛盾,提出了一种新的基于多贝叶斯算法组合的垃圾邮件过滤方法,并给出了不同方法下中、英文垃圾邮件过滤实验数据对比。实验表明该方法显著提高了垃圾邮件的过滤性能。  相似文献   

4.
翟军昌  秦玉平  车伟伟 《计算机科学》2014,41(6):214-216,224
针对垃圾邮件过滤中的特征项选择问题,提出了一种改进的信息增益方法。首先利用特征词的先验概率定义增益比,然后利用增益比对特征词为整个分类所提供的信息量进行放大或弱化,从而对特征词的类别条件熵计算作了改进,采用极大后验假设朴素贝叶斯决策方法在英文语料库上进行实验,通过召回率、正确率、精确率和错误率对算法进行评价分析。实验结果表明,改进后的算法提高了过滤器的分类精度,降低了过滤器对合法邮件的误判给用户带来的损失。  相似文献   

5.
垃圾邮件过滤的贝叶斯方法综述   总被引:12,自引:2,他引:12  
目前,基于内容的垃圾邮件过滤问题是Internet安全技术研究的一个重点问题,将机器学习的相关方法应用于垃圾邮件的搜索和判定是进行大量垃圾邮件处理的有效方法。由于贝叶斯分类方法在垃圾邮件处理上表现出了很高的准确度,因此基于贝叶斯分类的垃圾邮件分类方法受到了广泛的关注。主要介绍了贝叶斯方法的理论依据和实现方法,总结了近几年的贝叶斯分类方法的研究情况和贝叶斯方法在垃圾邮件处理中应用的优点和局限性,并提出了下一步可能的研究方向。  相似文献   

6.
在垃圾邮件过滤中,考虑到特征词对合法邮件和垃圾邮件分类贡献的不同,通过定义分类贡献比系数,将特征词分类贡献的思想应用到特征选择和朴素贝叶斯过滤器的设计中,在英文语料库上进行实验,实验结果表明,应用特征词分类贡献的垃圾邮件过滤方法可以有效提高过滤器对合法邮件和垃圾邮件的识别能力,降低过滤器对合法邮件和垃圾邮件的误判率。  相似文献   

7.
介绍贝叶斯方法的理论依据及近几年的典型贝叶斯分类方法,并给出不同方法下垃圾邮件过滤实验数据对比,总结贝叶斯方法在垃圾邮件处理中的优点和局限性,并提出下一步可能的研究方向.  相似文献   

8.
随着网络的不断发展,电子邮件已成为人们生活中较为普及的通信手段,相应地垃圾邮件也成为了困扰E-mail用户的主要问题,因此研究如何更好的抑制垃圾邮件的滥发变得愈发紧迫.在基于朴素贝叶斯算法的基础上提出了带有损失因子k的最小风险贝叶斯算法,该算法通过调整k值,来改善正常邮件的误判问题,最大程度上减少用户的损失.最后实验结果表明,最小风险贝叶斯算法可以使垃圾邮件有着更好的过滤效果.  相似文献   

9.
大量垃圾邮件的出现给用户收发电子邮件带来极大困扰。贝叶斯算法由于在垃圾邮件处理上表现出很高的准确度,因此受到了广泛关注。本文介绍了贝叶斯算法的理论依据,分析了贝叶斯算法的优缺点,总结了贝叶斯的相关改进算法,最后对贝叶斯算法进行了总结和展望。  相似文献   

10.
惠孛  吴跃 《计算机应用》2009,29(3):903-904
由于朴素贝叶斯分类模型的简单高效,在垃圾邮件分类时可以达到较好的效果;但朴素贝叶斯的条件独立假设割裂了属性之间的关系,影响了分类的准确性。放松朴素贝叶斯分类模型关于属性之间条件独立假设,介绍一种新的基于不完全朴素贝叶斯分类模型的垃圾邮件分类模型,N平均1 依赖邮件过滤模型。使用N个1 依赖分类模型的平均概率作为分类的预测概率。实验证明,该模型在简单、高效的同时降低了对垃圾邮件分类的错误率。  相似文献   

11.
基于属性加权的朴素贝叶斯分类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
朴素贝叶斯分类是一种简单而高效的方法,但是它的属性独立性假设,影响了它的分类性能。通过放松朴素贝叶斯假设可以增强其分类效果,但通常会导致计算代价大幅提高。提出了属性加权朴素贝叶斯算法,该算法通过属性加权来提高朴素贝叶斯分类器性能,加权参数直接从训练数据中学习得到。权值可以看作是计算某个类的后验概率时,某属性取值对该类别的影响程度。实验结果表明,该算法可行而且有效。  相似文献   

12.
彭天强  李弼程 《计算机工程》2009,35(20):178-180
提出一种基于朴素贝叶斯模型的新闻视频故事分割方法。通过对新闻视频进行镜头检测,获得候选故事边界点,从候选边界点周围镜头提取多模态中级特征,形成属性集合作为输入,应用朴素贝叶斯模型对候选边界点进行分类后对结果进行后处理,得到新闻故事。实验结果表明,该方法获得了较高的查准率和查全率,对不同类型的新闻节目有良好的适应性。  相似文献   

13.
Organizations often manage identity information for their customers, vendors, and employees. Identity management is critical to various organizational practices ranging from customer relationship management to crime investigation. The task of searching for a specific identity is difficult because disparate identity information may exist due to the issues related to unintentional errors and intentional deception. In this paper we propose a hierarchical Naïve Bayes model that improves existing identity matching techniques in terms of searching effectiveness. Experiments show that our proposed model performs significantly better than the exact-match based matching technique. With 50% training instances labeled, the proposed semi-supervised learning achieves a performance comparable to the fully supervised record comparison algorithm. The semi-supervised learning greatly reduces the efforts of manually labeling training instances without significant performance degradation.  相似文献   

14.
The generalized Dirichlet distribution has been shown to be a more appropriate prior for naïve Bayesian classifiers, because it can release both the negative-correlation and the equal-confidence requirements of the Dirichlet distribution. The previous research did not take the impact of individual attributes on classification accuracy into account, and therefore assumed that all attributes follow the same generalized Dirichlet prior. In this study, the selective naïve Bayes mechanism is employed to choose and rank attributes, and two methods are then proposed to search for the best prior of each single attribute according to the attribute ranks. The experimental results on 18 data sets show that the best approach is to use selective naïve Bayes for filtering and ranking attributes when all of them have Dirichlet priors with Laplace's estimate. After the ranks of the chosen attributes are determined, individual setting is performed to search for the best noninformative generalized Dirichlet prior for each attribute. The selective naïve Bayes is also compared with two representative filters for the feature selection, and the experimental results show that it has the best performance.  相似文献   

15.
As the importance of email increases, the amount of malicious email is also increasing, so the need for malicious email filtering is growing. Since it is more economical to combine commodity hardware consisting of a medium server or PC with a virtual environment to use as a single server resource and filter malicious email using machine learning techniques, we used a Hadoop MapReduce framework and Naïve Bayes among machine learning methods for malicious email filtering. Naïve Bayes was selected because it is one of the top machine learning methods(Support Vector Machine (SVM), Naïve Bayes, K-Nearest Neighbor(KNN), and Decision Tree) in terms of execution time and accuracy. Malicious email was filtered with MapReduce programming using the Naïve Bayes technique, which is a supervised machine learning method, in a Hadoop framework with optimized performance and also with the Python program technique with the Naïve Bayes technique applied in a bare metal server environment with the Hadoop environment not applied. According to the results of a comparison of the accuracy and predictive error rates of the two methods, the Hadoop MapReduce Naïve Bayes method improved the accuracy of spam and ham email identification 1.11 times and the prediction error rate 14.13 times compared to the non-Hadoop Python Naïve Bayes method.  相似文献   

16.
增量学习利用增量数据中的有用信息通过修正分类参数来更新分类模型,而朴素贝叶斯算法具有利用先验信息以及增量信息的特性,因此朴素贝叶斯算法是增量学习算法设计的最佳选择。三支决策是一种符合人类认知模式的决策理论,具有主观的特性。将三支决策思想融入朴素贝叶斯增量学习中,提出一种基于三支决策的朴素贝叶斯增量学习算法。基于朴素贝叶斯算法构造了一个称为分类确信度的概念,结合代价函数,用以确定三支决策理论中的正域、负域和边界域。利用三个域中的有用信息构造基于三支决策的朴素贝叶斯增量学习算法。实验结果显示,在阈值[α]和[β]选择合适的情况下,基于该方法的分类准确性和召回率均有明显的提高。  相似文献   

17.
出生缺陷监测数据中的朴素干预规则挖掘   总被引:2,自引:1,他引:2  
出生缺陷干预规则挖掘是目前医学界和数据挖掘界共同关注的课题。以出生缺陷数据为背景,研究了朴素干预规则建模,并试图发现某些出生缺陷的可能致因。提出了朴素干预规则模型以及朴素干预规则挖掘算法。实验表明,提出的算法能有效挖掘出围产儿缺陷的致因,并为出生缺陷干预工程的政策制定提供致病因素的最佳状态调整方向。  相似文献   

18.
We present a new approach to test selection in sequential diagnosis (or classification) in the independence Bayesian framework that resembles the hypothetico-deductive approach to test selection used by doctors. In spite of its relative simplicity in comparison with previous models of hypothetico-deductive reasoning, the approach retains the advantage that the relevance of a selected test can be explained in strategic terms. We also examine possible approaches to the problem of deciding when there is sufficient evidence to discontinue testing, and thus avoid the risks and costs associated with unnecessary tests.  相似文献   

19.
基于改进Naïve Bayes的垃圾邮件过滤模型研究   总被引:1,自引:0,他引:1  
分析了目前在垃圾邮件过滤中广泛应用的Naïve Bayes过滤模型(NBF),指出了期望交叉熵(ECE)特征词选取方法的不足。提出了改进的Naïve Bayes垃圾邮件过滤模型(A-NBF),用改进的期望交叉熵(AECE)选取垃圾邮件特征词,并在邮件分类过程中对特征词进行加权,从而提高对垃圾邮件过滤的精度。实验结果可以看出A-NBF比NBF在过滤精度方面有明显的提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号