首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
一种基于SVM算法的垃圾邮件过滤方法   总被引:4,自引:1,他引:3       下载免费PDF全文
基于邮件内容的过滤是当前解决垃圾邮件问题的主流技术之一。针对垃圾邮件过滤本质是分类问题,提出了一种基于支持向量机对垃圾邮件过滤的方法,并且将SMO分类算法结合到垃圾邮件分类中。通过实验,SMO算法能够取得较好的分类效果,缩短了支持向量机分类器的分类时间。  相似文献   

2.
随着网络的不断发展,电子邮件已成为人们生活中较为普及的通信手段,相应地垃圾邮件也成为了困扰E-mail用户的主要问题,因此研究如何更好的抑制垃圾邮件的滥发变得愈发紧迫.在基于朴素贝叶斯算法的基础上提出了带有损失因子k的最小风险贝叶斯算法,该算法通过调整k值,来改善正常邮件的误判问题,最大程度上减少用户的损失.最后实验结果表明,最小风险贝叶斯算法可以使垃圾邮件有着更好的过滤效果.  相似文献   

3.
主要介绍如何建立最大熵模型以及应用最大熵模型实现垃圾邮件过滤的基本原理和方法。  相似文献   

4.
本文在简要介绍PPM数据压缩算法及其改进的基础上,着重论述该算法在垃圾邮件过滤中的应用。首先将样本邮件进行文本预处理,并对正常邮件和垃圾邮件训练集进行训练,分别建立上下文模型;然后输入待过滤邮件,与PPM压缩模型进行比较,分别计算交叉熵以判断邮件类型;最后,测试结果表明,该算法达到较好效果。  相似文献   

5.
改进的朴素贝叶斯垃圾邮件过滤算法   总被引:1,自引:1,他引:0       下载免费PDF全文
介绍了朴素贝叶斯垃圾邮件过滤算法,对于朴素贝叶斯算法中条件概率的计算,选用了多变量贝努里事件模型的计算方法,在多变量贝努里事件模型的基础上进行了改进,并在Ling-Spam语料库上进行实验,实验结果表明改进后的算法有效地提高了过滤器的召回率和精确率,并且降低了过滤器的错误率。  相似文献   

6.
分析了贝叶斯分类方法在中文垃圾邮件过滤中的应用。提出了基于贝叶斯最小风险的垃圾邮件过滤技术,通过选择适当的损失函数,尽可能减少合法邮件的误判。实验结果表明,该方法是切实可行的并具有良好的效果。  相似文献   

7.
大量垃圾邮件的出现给用户收发电子邮件带来极大困扰。贝叶斯算法由于在垃圾邮件处理上表现出很高的准确度,因此受到了广泛关注。本文介绍了贝叶斯算法的理论依据,分析了贝叶斯算法的优缺点,总结了贝叶斯的相关改进算法,最后对贝叶斯算法进行了总结和展望。  相似文献   

8.
一种基于多贝叶斯算法的垃圾邮件过滤方法   总被引:5,自引:0,他引:5  
贝叶斯算法在垃圾邮件过滤中应用广泛。针对算法提高精确率和召回率的矛盾,提出了一种新的基于多贝叶斯算法组合的垃圾邮件过滤方法,并给出了不同方法下中、英文垃圾邮件过滤实验数据对比。实验表明该方法显著提高了垃圾邮件的过滤性能。  相似文献   

9.
在垃圾邮件过滤中,考虑到特征词对合法邮件和垃圾邮件分类贡献的不同,通过定义分类贡献比系数,将特征词分类贡献的思想应用到特征选择和朴素贝叶斯过滤器的设计中,在英文语料库上进行实验,实验结果表明,应用特征词分类贡献的垃圾邮件过滤方法可以有效提高过滤器对合法邮件和垃圾邮件的识别能力,降低过滤器对合法邮件和垃圾邮件的误判率。  相似文献   

10.
研究探讨了传统贝叶斯模型的原理和优缺点,指出朴素贝叶斯算法没有考虑到合法邮件和垃圾邮件被误判带来的不同损失.针对个人用户的个性化需求,以朴素贝叶斯算法为基础,结合最小风险,提出改进的基于垃圾单词的单一表文件垃圾邮件过滤算法,给出其具体实现方法及过程,并且通过实验证明其可行性.最后综合黑白名单、规则过滤和文本内容分类过滤三级模式构建了邮件过滤模型.  相似文献   

11.
基于条件信息熵的覆盖约简算法   总被引:1,自引:0,他引:1       下载免费PDF全文
李永顺  贾瑞玉 《计算机工程》2010,36(16):176-179
针对覆盖算法中识别精度与泛化能力存在的矛盾,在信息论观点的Rough集理论基础上,提出覆盖熵概念,以决策属性相对于分类器的条件信息熵为约束条件,在确保算法分类能力不降低的情况下,对一组覆盖中信息熵最大的覆盖进行约简,减少了分类器的不确定因素。实验结果证明,该算法具有很好的识别精度与泛化能力,对模糊、不确定的数据也具有较好的处理能力。  相似文献   

12.
一种基于新定义信息熵的目标检测算法   总被引:6,自引:0,他引:6  
周林  刘先省 《信息与控制》2005,34(1):119-122
将对图像处理有效的e指数定义的信息熵用于目标检测问题中,该信息熵克服了log对数信息熵的不足.仿真结果表明,两种不同信息熵的定义对目标的不确定性描述具有近乎相同的效果,但是指数定义与对数定义下的信息增量相比,避免了信息中无定义值和零值的产生.  相似文献   

13.
为了减少协同过滤算法存在的噪音数据以及数据稀疏性问题,提高算法准确性,本文提出一种基于信息熵和改进相似度的协同过滤算法,使用用户信息熵模型来判断噪音数据,排除噪音数据对实验结果的干扰;使用面向稀疏数据的改进相似度计算方法,使用全部评分数据而不是依靠共同的评分项来计算,对缓解稀疏数据对推荐结果的精确性影响有很大帮助。实验结果表明,该算法能在一定程度上排除噪音数据对结果的影响,缓解数据稀疏对推荐结果精确性的干扰,提高该推荐算法的精确性,且缓解了传统推荐系统算法中常见的一些问题,与传统的协同过滤算法相比,该算法的精确性更高。  相似文献   

14.
一种基于新的条件信息熵的高效知识约简算法   总被引:15,自引:1,他引:15  
分析了在知识约简过程中现有条件信息熵的不足,给出一种新的条件信息熵,由此定义新的属性重要性.将其与基于正区域和基于现有条件信息熵的属性重要性进行比较,结果表明新的属性重要性是一种更准确、更全面的启发信息.以新的属性重要性为启发信息设计约简算法,并给出计算新的条件信息熵的高效算法.理论分析和实验结果表明,与基于现有条件信息熵的约简算法相比,该约简算法时间复杂度较低,且在搜索最小或次优约简方面更优.  相似文献   

15.
针对拥有少量评分的新用户采用传统方法很难找到目标用户的最近邻居集的问题,本文提出了一种条件型游走二部图协同过滤算法。该算法根据复杂网络理论的二部图网络,将用户-项目评分矩阵转换为用户-项目二部图,采用了条件型游走计算目标用户与其他用户之间的相似性。研究结果表明在同样的数据稀疏性情况下,本文提出的条件型游走二部图协同过滤算法在MAE和准确率都要优于其他两种传统的协同过滤算法,从而提高了算法的推荐精度;而且当训练值的比例很低时,即数据稀疏程度越大时,本文提出的推荐算法的对推荐质量的提高程度越大。  相似文献   

16.
基于信息增益与信息熵的TFIDF算法   总被引:1,自引:0,他引:1       下载免费PDF全文
传统的特征词权重算法TFIDF忽略了特征词在类内、类间的分布对其权重的影响。针对该问题,引入信息熵的概念,对基于信息增益的TFIDF算法(TFIDFIG)进行改进,提出一种基于信息增益与信息熵的TFIDF算法(TFIDFIGE)。实验结果表明,与传统的TFIDF算法和TFIDFIG算法相比,TFIDFIGE算法的查准率和查全率较高。  相似文献   

17.
粗糙集是一种处理不确定、不完全知识的数学工具,属性约简是粗糙集理论的重要研究内容之一。提出了一种基于条件熵的快速增量约简方法,主要分析了在对象动态增加情况下信息熵的变化机制。该算法通过判断更新前决策表的约简属性对新增对象的区分情况来计算新的条件熵值,就可以快速求解出更新后的决策表的属性约简结果。实验结果也进一步验证了该方法的有效性。  相似文献   

18.
基于覆盖算法的垃圾邮件过滤   总被引:2,自引:0,他引:2  
电子邮件系统分类的正确性与风险性是评价邮件系统好坏的关键因素,邮件过滤是文本分类问题的一种特殊应用.将神经网络中的覆盖算法引入到邮件过滤中,结合多种特征降维方法进行邮件分类实验,并与SVM方法进行了比较.给出一个结合覆盖算法、合适的特征选择与降维方法的分类器,可以实现较好的效果.另外,根据垃圾邮件过滤在实际使用中的最小风险性的要求,从风险角度分析了覆盖算法对测试样本进行分类时的过程.根据分析结果提出对其拒识样本的处理过程进行改进,通过改变非垃圾邮件所属覆盖的影响范围降低了垃圾邮件过滤时的风险.  相似文献   

19.
结合邮件的半结构化特征,将最大熵模型引入垃圾邮件过滤中,构造出基于最大熵模型的垃圾邮件过滤系统框架.在此基础上,将其与Outlook提供的PIA相结合,利用.NET技术开发出基于最大熵模型的垃圾邮件过滤插件,在客户端实现了基于内容的垃圾邮件过滤,较好地解决了垃圾邮件的问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号