共查询到18条相似文献,搜索用时 62 毫秒
1.
贝叶斯分类方法在英文邮件过滤中效果良好,在中文环境下一直表现不佳,而特征选择是垃圾邮件过滤中的重要步骤,它能够有效地改善过滤效果。文中以成词概率作为特征选择的基础,用构造的方法形成候选特征集,然后进一步用信息增益的方法来度量特征与类的关系,选择信息增益较大的N个特征做为最后的特征向量空间。在此基础上利用贝叶斯方法对邮件进行分类,实验结果验证了该方法在分类时间和分类效果上都优于传统的基于机械分词的贝叶斯方法。 相似文献
2.
一种基于多贝叶斯算法的垃圾邮件过滤方法 总被引:5,自引:0,他引:5
贝叶斯算法在垃圾邮件过滤中应用广泛。针对算法提高精确率和召回率的矛盾,提出了一种新的基于多贝叶斯算法组合的垃圾邮件过滤方法,并给出了不同方法下中、英文垃圾邮件过滤实验数据对比。实验表明该方法显著提高了垃圾邮件的过滤性能。 相似文献
3.
基于贝叶斯理论的垃圾邮件过滤技术 总被引:12,自引:0,他引:12
垃圾邮件已成为损耗生产力的问题,反垃圾邮件技术不断出现,基于贝叶斯理论的垃圾邮件过滤技术有其独特的优势,研究针对中文的贝叶斯垃圾邮件过滤技术具有理论和现实的意义。 相似文献
4.
介绍贝叶斯方法的理论依据及近几年的典型贝叶斯分类方法,并给出不同方法下垃圾邮件过滤实验数据对比,总结贝叶斯方法在垃圾邮件处理中的优点和局限性,并提出下一步可能的研究方向. 相似文献
5.
6.
7.
基于改进贝叶斯的垃圾邮件过滤系统设计与实现 总被引:7,自引:3,他引:7
该文设计并实现了一种基于改进贝叶斯的垃圾邮件过滤系统。传统的贝叶斯方法对邮件进行过滤时,将邮件视为一个无序关键词的向量空间,丢掉了词与词之间,句子之间的相互关系。该文则将邮件视为句间有序,句子内部关键词无序但是相关的部分有序的集合。减少传统方法处理时信息的丢失。得到的实验结果比传统方法更好。 相似文献
8.
用贝叶斯算法实现垃圾邮件过滤 总被引:2,自引:0,他引:2
本文论述了一种采用贝叶斯过滤算法实现的垃圾邮件过滤系统,并在Windows平台下用VC++实现。系统工作在邮件客户端和邮件服务器之间,基于邮件内客的解析,可以有效地过滤和分离用户的垃圾邮件。 相似文献
9.
张志瑛 《数字社区&智能家居》2013,(14):3280-3282,3287
垃圾邮件问题始终困扰着人们,因此一直是当今互联网面临的主要问题之一。许多优秀的文本分类算法被引入垃圾邮件过滤领域,其中包括贝叶斯分类方法。与其他分类方法相比,贝叶斯方法由于其简易实现性,线性计算复杂性、以及准确性成为当今垃圾邮件过滤技术中最流行的方法之一。该文将对基于贝叶斯方法的垃圾邮件过滤技术做出分析和综述,并提出进一步的研究方向。 相似文献
10.
11.
12.
邮件网络协同过滤机制研究 总被引:3,自引:1,他引:2
基于Enron邮件集合探索真实邮件网络,揭示出邮件网络的无标度特性和有限小世界特性. 在此基础上,依据用户间交互强度设计出垃圾邮件协同过滤机制,通过调整参数λ,用户可以决定主要是依靠自己还是其他用户协同进行垃圾信息过滤. 算法即使在没有对用户个人阅读习惯充分训练的情况下,也可以通过基于交互强度的网络协同方式实现良好过滤. 同时为了解决Enron数据集缺乏标注的情况,基于训练样本集W和测试样本集T独立同分布的假设,利用改进的EM (Expectation maximization)算法最小化W∪T集合上风险函数,给出了未知样本的一个良好标注. 真实数据上的实验表明,同单机过滤和集成过滤方法相比,协同过滤能够提高平均过滤精度且方法简单易行. 相似文献
13.
14.
介绍了一个改进的基于贝叶斯分类技术的垃圾邮件过滤器的系统结构,完成了系统的整体设计和实现。提出了一种改进的邮件信息增益方法,选取多个样本进行实验比较分析,提高了贝叶斯分类器的性能。 相似文献
15.
研究了基于SVM算法的改进朴素贝叶斯文本分类算法及在垃圾短信过滤中的应用。针对朴素贝叶斯算法条件独立性假设、过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加,提出了改进的基于SVM算法的朴素贝叶斯算法垃圾短信过滤的解决方案,充分结合了朴素贝叶斯算法高效分类和SVM算法增量学习及不依赖样本空间的特点;首先利用结构风险最小化原理和非线性变换将分类问题转化为二次寻优问题,最后利用朴素贝叶斯算法过滤短信,提高分类的准确度和稳定性;仿真实验结果表明,该算法能够快速得到最优分类特征子集,有效提高了垃圾短信过滤的准确率和分类速度。 相似文献
16.
为了提高垃圾邮件过滤系统的对邮件过滤的准确性和返回率,论文改进了传统的贝叶斯定理。提出一种改进的垃圾邮件过滤方法,该方法使用基于单词提取特征值和使用特征向量来描述频率。模型降低了垃圾邮件的错误率,总体上提高了系统的过滤性能。与传统贝叶斯公式的假设不同,系统为垃圾邮件样本的每个特征值分配不同的权值,降低了的垃圾邮件判断误差。实验结果表明,论文提出的垃圾邮件过滤方法能够显着提高准确性和返回率,系统性能得到了较大改进。 相似文献
17.
本文在对中文邮件关键词提取方法、关键词的降维处理与优化提炼以及垃圾邮件识别概率等方面进行理论探讨的同时,较为详细地阐述了中文环境下贝叶斯过滤技术的使用方法,这对有效减少垃圾邮件数量,提高网络利用率具有重要的理论价值和现实意义。 相似文献
18.
朴素贝叶斯算法在垃圾邮件过滤领域得到了广泛应用,该算法中,特征提取是一个必不可少的环节。过去针对中文的垃圾邮件过滤方法都以词作为文本的特征项单位进行提取,面对大规模的邮件训练样本,这种算法的时间效率会成为邮件过滤技术中的一个瓶颈。对此,提出一种基于短语的贝叶斯中文垃圾邮件过滤方法,在特征项提取阶段结合文本分类领域提出的新的短语分析方法,按照基本名词短语、基本动词短语、基本语义分析规则,以短语为单位进行提取。通过分别以词和短语为单位进行垃圾邮件过滤的对比测试实验证实了所提出方法的有效性。 相似文献