首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
本文针对垃圾邮件过滤问题,结合中文自身的特点,把广泛适用于英文文本和邮件分类的朴素贝叶斯过滤方法应用在垃圾邮件网关邮件过滤层;把信息增益修剪方法经过改进作为中文特征选择方法,应用在数据管理层;从而极大提高了垃圾邮件的过滤精度。  相似文献   

2.
特征选择是邮件过滤重要的环节,特征的好坏不仅影响分类的准确率,还直接影响到分类器训练和分类的开销。比较了常用的CHI选择、互信息(MI)、信息增益(IG)和SVM 特征选择算法在垃圾邮件过滤中的效果,针对这些方法只排序而未消除特征间冗余的缺点,提出了利用特征词间条件概率和分类区分度消除冗余的混合邮件特征选择方法。实验结果表明:方法效果良好,提高了邮件分类准确率。  相似文献   

3.
基于粗糙集的加权朴素贝叶斯邮件过滤方法   总被引:5,自引:3,他引:2  
邮件过滤中有两个关键问题,一是如何选择有效的邮件特征集,二是设计较好的邮件过滤算法。在对邮件特性进行分析的基础上,综合邮件头及邮件内容的主要形象特征给出了一种新的邮件特征集提取方法。用粗糙集的信息观点度量了各属性的重要性,并以此为权重进行加权朴素贝叶斯垃圾邮件过滤,有效地解决了朴素贝叶斯分类中的条件依赖性问题。通过在中英文邮件集上的测试实验,证明了所提出的邮件过滤方法的有效性。  相似文献   

4.
利用改进的信息增益特征选择的方法来提取特征词,基于向量空间模型构造邮件的特征向量,最后用支持向量机算法对邮件进行过滤。实验表明,改进后的信息增益特征选择方法对邮件过滤是很有效的。  相似文献   

5.
基于数据挖掘的邮件分类识别研究   总被引:1,自引:0,他引:1  
在贝叶斯过滤技术的启发下,选择数据挖掘的方法来研究一种具有学习能力的邮件过滤技术.通过对电子邮件的分析和研究,提出对邮件结构字段信息和邮件正文信息加以离散和特征化处理,用向量的方式表示电子邮件,建立了一种基于信息熵的决策树邮件分类识别模型.  相似文献   

6.
朴素贝叶斯算法是一种常见的基于内容的垃圾邮件过滤算法,但是,传统朴素贝叶斯过滤存在判断内容的不确定性和邮件表示不完整性等问题。分析邮件信头各域在正常邮件和垃圾邮件中表现出的不同属性,提取非特征信息,结合特征信息和非特征信息改进朴素贝叶斯算法。实验结果表明,改进的朴素贝叶斯分类方法与单纯使用特征信息的方法相比,垃圾邮件的召回率和准确率更高,凸显了该方法涵盖邮件信息、克服内容判断缺陷的优势。  相似文献   

7.
基于词共现模型的垃圾邮件过滤方法研究   总被引:3,自引:1,他引:2  
垃圾邮件过滤就是对邮件做出是垃圾或非垃圾的判断。传统的表示邮件的方法是在向量空间模型基础上通过信息增益等特征选择方法提取一部分词来表示邮件内容,存在语义信息不足的问题。该文提出一种将传统方法和词共现模型结合起来表示邮件特征的新方法,再采用交叉覆盖算法对邮件进行分类得到邮件分类器。实验表明,该文提出的邮件过滤算法与传统方法相比提高了过滤性能,词共现选择的维度要比传统方法选择的维度更具有代表性。  相似文献   

8.
在进行文本信息的分类中,通过朴素贝叶斯算法对邮件进行分类是一种简单有效的方法,朴素贝叶斯在分类时假设属性之间条件独立,降低了复杂度。该文结合应用实例,给出了朴素贝叶斯算法在反垃圾邮件中的分类原理,达到了智能动态过滤垃圾邮件的效果。  相似文献   

9.
夏超  徐德华 《计算机与现代化》2010,(10):125-128,132
贝叶斯过滤算法是反垃圾邮件过滤技术中应用最为广泛的方法之一。考虑到邮件的错误分类对邮件接收者带来的损失不同,引入判定垃圾邮件是判定正常邮件的λ倍作为最终邮件分类依据;同时,为了提高贝叶斯过滤算法的分类质量,运用遗传算法来对邮件中正文和标题的特征词在邮件分类中不同的重要程度做区分。最后用实际的邮件样本对改进后的算法进行验证,验证结果表明,利用遗传算法优化配合贝叶斯过滤算法能有效提高邮件分类的质量。  相似文献   

10.
分析了一种基于直线几何分割的朴素贝叶斯邮件过滤模型LGDNBF,用更为精确的代价因子描述了分类器误判的代价。定义了高风险决策区域,对高风险决策区域中的邮件引入SVM方法进行二次分类,提出了基于精确代价因子的两层邮件过滤模型。在中文邮件语料集上的实验结果证明了这一两层过滤模型的分类效果较之朴素贝叶斯邮件过滤模型有明显的改进。  相似文献   

11.
针对目前基于贝叶斯或决策树的入侵检测方法存在检测率低、误检率高的问题,提出了一种基于贝叶斯和决策树的入侵检测方法。该检测方法首先采用基于特征相似度的朴素贝叶斯方法对训练集中的样本进行分类,更新每个样本的类值;然后对训练集中的样本再次使用朴素贝叶斯方法进行分类,对存在误分类样本的类采用决策树的信息增益来确定属性划分子类,再对子类进行分类和划分操作;最后建立贝叶斯和决策树的混合模型进行入侵检测。实验结果表明,与单独使用贝叶斯或者决策树的检测方法相比,该检测方法具有较高的检测率。  相似文献   

12.
电子邮件广泛应用于人们的工作生活中。然而,充斥着虚假信息、恶意软件和营销广告等内容的垃圾邮件也以电子邮件为载体进行传播。这不仅给人们带来不便,而且也占用和耗费大量的网络资源,甚至严重地威胁信息安全。因此,有效地识别、过滤垃圾邮件是一项重要的工作。目前,垃圾邮件过滤方法主要包括基于邮件来源的识别和基于内容的识别,但大部分方法效果不佳且效率不高,并且需要耗费大量的人力标注特征,也跟不上垃圾邮件内容和形式等的改变。近年来,有研究人员将深度强化学习用在自然语言处理上并取得了重大的成果,鉴于此,本文提出基于深度Q网络的垃圾邮件文本分类方法。该方法在对邮件文本进行预处理、分词以及用Word2vec模型得到词向量的基础上用深度Q网络对垃圾邮件进行过滤,充分利用Word2vec中的CBOW模型得到邮件文本中的每个分词对应的词向量,直接用深度Q网络对得到的词向量集进行处理,无需提取邮件的特征,避免了由于特征提取的偏差带来的负面影响,提高了垃圾邮件过滤的效率和精确率。实验结果验证了本文方法的有效性。  相似文献   

13.
对朴素贝叶斯理论作为中文邮件过滤技术进行了分析改进,邮件预处理后,对其进行分词处理,利用基于依赖性的粗糙集最优属性约简方法来对邮件集进行特征维数压缩。条件属性的数目大幅减少,提高了分类的效率。  相似文献   

14.
对朴素贝叶斯理论作为中文邮件过滤技术进行了分析改进,邮件预处理后,对其进行分词处理,利用基于依赖性的粗糙集最优属性约简方法来对邮件集进行特征维数压缩。条件属性的数目大幅减少,提高了分类的效率。  相似文献   

15.
由于朴素贝叶斯算法的特征独立性假设以及传统TFIDF加权算法仅仅考虑了特征在整个训练集的分布情况,忽略了特征与类别和文档之间关系,造成传统方法赋予特征的权重并不能代表其准确性.针对以上问题,提出了二维信息增益加权的朴素贝叶斯分类算法,进一步考虑到了特征的二维信息增益即特征类别信息增益和特征文档信息增益对分类效果的影响,并设计实验与传统的加权朴素贝叶斯算法相比,该算法在查准率、召回率、F1值指标性能上能提升6%左右.  相似文献   

16.
孙嘉  陈智勇 《计算机仿真》2020,37(1):179-182,316
校园微博作为影响学生学习与生活的平台,其中的负信息数量逐渐增多。针对当前校园微博负信息分类方法中存在的分类准确性差、耗时长的问题,提出基于贝叶斯的校园中微博演化网络动画负信息分类方法。依据完全性和可区分性对微博演化网络动画负信息特征集合进行构造,设定判定阈值,去除各篇信息文档中频次比设定阈值低的信息特征项,获取每篇微博信息文档特征项集合。根据特征项集合的构建,给出专指度定义,针对专指度比较高的信息特征项,对其频次进行适当增加。针对专指度比较低的信息特征项,对其频次进行适当减少,完成微博演化网络动画信息文档特征向量的构建,并对特征向量进行归一化。利用点互信息对校园中微博演化网络动画负信息进行初分类,通过贝叶斯分类器对初次分类后未被分类的微博负信息进行二次分类。实验结果表明,上述方法负信息分类准确率高,耗时短,具有可行性。  相似文献   

17.
邓维斌  洪智勇 《计算机应用》2010,30(8):2006-2009
如何将邮件的头信息和内容信息有效结合起来进行垃圾邮件过滤备受研究人员的关注。基于粗糙集具有很好地处理不确定信息的特点,提出了一种基于粗糙集的两阶段邮件过滤方法,首先根据邮件头信息将其分为正常邮件、垃圾邮件和可疑邮件,再根据邮件内容将可疑邮件分为正常和垃圾邮件。通过在中英文邮件集上的测试实验,证明了所提出的邮件过滤方法不仅能提高垃圾邮件过滤的准确率,而且能大幅降低误杀率。  相似文献   

18.
提高故障诊断能力对于确保水下机器人系统的稳定运行具有重要意义,故障分类是目前水下机器人故障诊断所面临的一个重要问题。针对水下机器人推进器系统数据特征,提出一种基于信息增益率的加权朴素贝叶斯故障分类算法。首先,计算故障训练样本的先验概率,将各属性的信息增益率作为权值;其次,构建基于增益率加权的朴素贝叶斯分类模型;然后,对检测的故障数据利用分类模型获取具有最大后验概率的故障模式,实现故障分类。与朴素贝叶斯算法和决策树算法相比,仿真实验结果表明基于信息增益率加权的朴素贝叶斯算法的分类成功率更高,能够有效地实现水下机器人的故障分类。  相似文献   

19.
特征选择是高维数据降维的一种关键技术。传统数据降维技术如PCA,只是转化数据的表达形式,不能表达数据的相关程度。近年来提出信息度量方法,使用评价函数表示数据的不确定性程度,虽然能较好地体现数据之间的相关程度,但并没有充分考虑选取的特征对整个样本空间的影响。针对传统方法的不足,提出一种基于贝叶斯和谐度特征选择算法。贝叶斯和谐度来自贝叶斯阴阳和谐学习理论,可以估计整个数据空间的联合概率分布,选取的特征能够较好地反应整个样本空间的变化。根据和谐度的变化来度量类之间的相似度从而得到冗余度较低的特征组合。与传统方法如ReliefF、FCBF等比较后发现,在取同样特征个数的情况下,和谐度度量得到的特征组合对数据分类更有效。  相似文献   

20.
随着互联网的普及,电子邮件作为一种被人们广泛使用的工具,已被越来越多的不法分子用作广告、反动、色情等信息传播的工具,产生了大量的垃圾邮件.目前主流的垃圾过滤器是基于文本的,垃圾邮件制造者为了逃避被过滤,常常将文字转化为图像或者将文字嵌入到图像中,产生了大量的垃圾图像.针对广告垃圾图像多为文字图像这一特点,根据文字图像中的文字边缘分布特征,提出一种基于边缘特征的广告垃圾图像过滤方法,先检测出图像的纵向边缘,然后根据纵向边缘的分布特征提取文字行区域,最后将文字行区域去噪,确定最终的文字区域.实验证明,该方法效果良好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号