首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
针对文本流分类中的概念漂移问题,以垃圾邮件过滤为应用背景,提出一种能适应概念漂移的垃圾邮件基于案例推理CBR(Case-based Reasoning)过滤算法。算法采用CBR过滤垃圾邮件,研究CBR过程中的案例库管理技术,提出基于惩罚降噪和等价除冗的案例库修正算法,以适应概念漂移问题。在真实数据集上的实验验证了提出的案例修正算法获得的垃圾邮件过滤效率的提高,可以更好地解决垃圾邮件中的概念漂移问题。  相似文献   

2.
垃圾邮件的泛滥提出了极为迫切的技术诉求。文章介绍了基于神经网络的垃圾邮件过滤系统模型,并首先介绍了整个系统工作流程,然后阐述了系统中文本分词、文本特征提取、神经网络分类器等关键环节。神经网络的自学习。自适应能力解决了垃圾邮件特征不断变化而过滤方法相时固定的矛盾。  相似文献   

3.
基于内容的垃圾邮件过滤问题是Internet安全技术研究的一个重点问题,而基于贝叶斯的分类方法在垃圾邮件处理上表现了很高的准确度,因此受到了广泛的关注。本文将一种基于模拟退火遗传算法的贝叶斯分类方法引入到中文垃圾邮件过滤中,提高了分类的精确度。实验证明,算法在邮件过滤中有更好的表现。  相似文献   

4.
基于LVQ2神经网络及决策归纳的中文邮件过滤   总被引:4,自引:0,他引:4  
王雨轩 《计算机工程》2005,31(9):213-215
垃圾邮件所带来的巨大经济损失及巨大的信息处理量已成为世界性的问题.目前,国际上应用效果较好的过滤技术是基于贝叶斯概率模型,但是由于汉语极为复杂的语义环境和贝叶斯算法的易欺骗性,使得其不能很好地过滤中文垃圾邮件.对此,该文提出了一种综合LVQ2神经网络及决策树分类的过滤算法.实验结果表明,该算法可以过滤98%以上的中文垃圾邮件.  相似文献   

5.
针对电子邮件应用中垃圾邮件危害日益严重的问题,基于机器学习的垃圾邮件过滤方法正成为当前互联网应用领域的研究热点之一.通过对现有基于机器学习的垃圾邮件处理方法的分析研究,并结合中文信息处理的特点,提出一种基于支持向量机SVM(Support Vector Machine)的中文垃圾邮件过滤方法并加以设计实现.实验表明,在有限样本情况下,基于SVM的中文垃圾邮件过滤方法具有较高的准确性和稳定性.  相似文献   

6.
基于贝叶斯公式的垃圾邮件过滤方法   总被引:8,自引:0,他引:8  
伴随着电子邮件的广泛使用,垃圾邮件泛滥成灾,严重影响了人们正常的学习、工作和生活。本文提出了一种改进的基于贝叶斯公式垃圾邮件过滤技术。我们采用了基于词熵的特征项提取方法,并且使用特征项单词出现频率来表示向量,推导出相应的贝叶斯计算公式。实验表明,我们的方法使垃圾邮件过滤的整体性能都有明显提高。  相似文献   

7.
针对深层神经网络初始化方法不明确、泛化能力差而导致解决垃圾邮件过滤时效果较差的问题,提出了基于深度置信网络的分类方法。深度置信网络通过逐层无监督的方法来预训练网络,实现了网络的初始化。在LingSpam,SpamAssassin和Enron1三个广泛使用的数据集上,通过与目前最好的垃圾邮件过滤方法支持向量机(SVM)在分类性能上进行比较,实验结果表明深度置信网络的垃圾邮件过滤方法是有效的,获得了较高的准确率和召回率。  相似文献   

8.
基于内容的垃圾邮件过滤技术综述   总被引:67,自引:3,他引:67  
垃圾邮件问题日益严重,受到研究人员的广泛关注。基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。目前基于内容的垃圾邮件过滤主要包括基于规则的方法和基于概率统计的方法。本文综述了目前用于垃圾邮件过滤研究的各种语料和评价方法,并总结了目前使用的垃圾邮件过滤技术以及它们之间的对比实验,包括Ripper、决策树、Rough Set 、Rocchio 、Boosting、Bayes、kNN、SVM、Winnow 等等。实验结果表明,Boosting、Flexible Bayes、SVM、Winnow 方法是目前较好的垃圾邮件过滤方法,它们在评测语料上的结果已经达到很高水平,但是,要走向真正实用化,还有很多的工作要做。  相似文献   

9.
基于内容的垃圾邮件过滤问题是Internet安全技术研究的一个重点问题,而基于贝叶斯的分类方法在垃圾邮件处理上表现出了很高的准确度,因此受到了广泛的关注。在朴素贝叶斯算法的基础上,提出了一种基于最小风险贝叶斯方法同Boosting算法相结合的邮件过滤改进算法,提高了分类的精确度。实验证明,算法在邮件过滤中有更好的表现。  相似文献   

10.
基于神经网络的"垃圾"邮件过滤系统设计   总被引:2,自引:0,他引:2  
为了对垃圾邮件进行有效地过滤,以神经网络作为分类器,采用由垃圾邮件发送者进行确认的邮件认证方法设计了邮件过滤系统。神经网络的自学习、自适应能力解决了垃圾邮件特征不断变化而过滤方法相对固定的矛盾。新的垃圾邮件认证方法使发送垃圾邮件比接收垃圾邮件更费时间,减少了用户收到垃圾邮件的数量。  相似文献   

11.
Email has become one of the fastest and most economical forms of communication. Email is also one of the most ubiquitous and pervasive applications used on a daily basis by millions of people worldwide. However, the increase in email users has resulted in a dramatic increase in spam emails during the past few years. This paper proposes a new spam filtering system using revised back propagation (RBP) neural network and automatic thesaurus construction. The conventional back propagation (BP) neural network has slow learning speed and is prone to trap into a local minimum, so it will lead to poor performance and efficiency. The authors present in this paper the RBP neural network to overcome the limitations of the conventional BP neural network. A well constructed thesaurus has been recognized as a valuable tool in the effective operation of text classification, it can also overcome the problems in keyword-based spam filters which ignore the relationship between words. The authors conduct the experiments on Ling-Spam corpus. Experimental results show that the proposed spam filtering system is able to achieve higher performance, especially for the combination of RBP neural network and automatic thesaurus construction.  相似文献   

12.
基于BP神经网络的垃圾邮件过滤器研究   总被引:1,自引:0,他引:1  
针对电子邮件特征向量庞大的问题,采用K-L变换与遗传算法(GeneticAlgorithm)相结合的KLGA算法对邮件向量进行降维。对于基于BP神经网络的邮件过滤器,采用遗传算法来优化神经网络权值,进一步提高邮件分类效果。通过试验数据表明,此优化方法能够快速、高效地对垃圾邮件进行过滤。  相似文献   

13.
近年来,随着生活节奏的提高和互联网的迅速发展,人们更倾向于在众多社交平台上用短文本进行交流,进而可能有人通过发布垃圾文本妨碍人们的正常社交,扰乱网络的绿色环境.为了解决这个问题,我们提出了基于TF-IDF和改进BP神经网络的社交平台垃圾文本检测的方法.通过该方法,实现对社交平台上的垃圾文本过滤.首先,通过结巴分词和去停分词构造关键词数据集;其次,对文本表示的关键词向量运用计算各关键词的权重从而对文本向量进行降维,得到特征向量;最后,在此基础上,运用BP神经网络分类器对短文本进行分类,检测出垃圾文本并进行过滤.实验结果表明用该方法在1000维文本特征向量的情况下分类平均准确率达到了97.720%.  相似文献   

14.
该文介绍了神经网络模型在垃圾邮件过滤中的应用。首先对通过浏览器收集到的邮件进行分析,将其转换为HTML源代码的形式,再根据HTML语言的特点对其进行特征提取,从而达到邮件预处理的目的。随后又采用LVQ神经网络建立分类器模型,以达到最终分离正常邮件(ham)和垃圾邮件(spam)的目的,对比实验表明,结合HTML代码的特征提取和LVQ神经网络的分类器模型效果更好。  相似文献   

15.
张建  严珂  马祥 《计算机应用》2022,42(3):770-777
垃圾信息的识别是自然语言处理方面主要的任务之一.传统方法是基于文本特征或词频的方法,其识别准确率主要依赖于特定关键词的出现与否,存在对关键词识别错误或对未出现关键词的垃圾信息文本识别能力较差的问题,提出基于神经网络的方法.首先,利用传统方法针对这一类垃圾信息文本进行识别训练和测试;然后,利用从垃圾短信、广告和垃圾邮件数...  相似文献   

16.
垃圾邮件的处理是电子邮件服务中非常重要的功能,该文在对标准邮件集表示为向量空间模型,降维处理处理工作的基础上,运用神经网络集成的方法来构造邮件分类器,对邮件进行过滤;该方法在垃圾邮件语料库上进行了实验,实验证明该方法对于垃圾邮件的过滤有较好的效果。  相似文献   

17.
Bo Yu  Zong-ben Xu   《Knowledge》2008,21(4):355-362
The growth of email users has resulted in the dramatic increasing of the spam emails during the past few years. In this paper, four machine learning algorithms, which are Naïve Bayesian (NB), neural network (NN), support vector machine (SVM) and relevance vector machine (RVM), are proposed for spam classification. An empirical evaluation for them on the benchmark spam filtering corpora is presented. The experiments are performed based on different training set size and extracted feature size. Experimental results show that NN classifier is unsuitable for using alone as a spam rejection tool. Generally, the performances of SVM and RVM classifiers are obviously superior to NB classifier. Compared with SVM, RVM is shown to provide the similar classification result with less relevance vectors and much faster testing time. Despite the slower learning procedure, RVM is more suitable than SVM for spam classification in terms of the applications that require low complexity.  相似文献   

18.
电子邮件是一种重要的通信工具,但是垃圾邮件问题一直影响着人们日常的工作生活.不断改进垃圾邮件的检测技术、提高垃圾邮件的检测速度和准确率有着重要的研究意义和现实意义.双向门控循环单元(BiGRU)和卷积神经网络(CNN)广泛应用于文本分类领域,二者的结合可以充分发挥BiGRU上下文依赖关系提取能力以及CNN特征提取能力,...  相似文献   

19.
基于内容与链接特征的中文垃圾网页分类   总被引:2,自引:0,他引:2  
随着搜索引擎使用的日益普及,web作弊已成为搜索引擎面临的一个重大挑战。国内外研究人员从基于内容,基于链接等方面提出了许多反web作弊的技术,这些技术一定程度上能有效地检测垃圾网页。本文在前人研究基础上提出了一种结合网页内容和链接方面的特征,采用机器学习对中文垃圾网页进行分类检测的方法。实验结果表明,该方法能有效地对中文垃圾网页分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号