共查询到19条相似文献,搜索用时 140 毫秒
1.
刘莹 《计算机应用与软件》2013,(9)
针对文本流分类中的概念漂移问题,以垃圾邮件过滤为应用背景,提出一种能适应概念漂移的垃圾邮件基于案例推理CBR(Case-based Reasoning)过滤算法。算法采用CBR过滤垃圾邮件,研究CBR过程中的案例库管理技术,提出基于惩罚降噪和等价除冗的案例库修正算法,以适应概念漂移问题。在真实数据集上的实验验证了提出的案例修正算法获得的垃圾邮件过滤效率的提高,可以更好地解决垃圾邮件中的概念漂移问题。 相似文献
2.
垃圾邮件的泛滥提出了极为迫切的技术诉求。文章介绍了基于神经网络的垃圾邮件过滤系统模型,并首先介绍了整个系统工作流程,然后阐述了系统中文本分词、文本特征提取、神经网络分类器等关键环节。神经网络的自学习。自适应能力解决了垃圾邮件特征不断变化而过滤方法相时固定的矛盾。 相似文献
3.
基于内容的垃圾邮件过滤问题是Internet安全技术研究的一个重点问题,而基于贝叶斯的分类方法在垃圾邮件处理上表现了很高的准确度,因此受到了广泛的关注。本文将一种基于模拟退火遗传算法的贝叶斯分类方法引入到中文垃圾邮件过滤中,提高了分类的精确度。实验证明,算法在邮件过滤中有更好的表现。 相似文献
4.
基于LVQ2神经网络及决策归纳的中文邮件过滤 总被引:4,自引:0,他引:4
垃圾邮件所带来的巨大经济损失及巨大的信息处理量已成为世界性的问题.目前,国际上应用效果较好的过滤技术是基于贝叶斯概率模型,但是由于汉语极为复杂的语义环境和贝叶斯算法的易欺骗性,使得其不能很好地过滤中文垃圾邮件.对此,该文提出了一种综合LVQ2神经网络及决策树分类的过滤算法.实验结果表明,该算法可以过滤98%以上的中文垃圾邮件. 相似文献
5.
针对电子邮件应用中垃圾邮件危害日益严重的问题,基于机器学习的垃圾邮件过滤方法正成为当前互联网应用领域的研究热点之一.通过对现有基于机器学习的垃圾邮件处理方法的分析研究,并结合中文信息处理的特点,提出一种基于支持向量机SVM(Support Vector Machine)的中文垃圾邮件过滤方法并加以设计实现.实验表明,在有限样本情况下,基于SVM的中文垃圾邮件过滤方法具有较高的准确性和稳定性. 相似文献
6.
7.
8.
基于内容的垃圾邮件过滤技术综述 总被引:67,自引:3,他引:67
垃圾邮件问题日益严重,受到研究人员的广泛关注。基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。目前基于内容的垃圾邮件过滤主要包括基于规则的方法和基于概率统计的方法。本文综述了目前用于垃圾邮件过滤研究的各种语料和评价方法,并总结了目前使用的垃圾邮件过滤技术以及它们之间的对比实验,包括Ripper、决策树、Rough Set 、Rocchio 、Boosting、Bayes、kNN、SVM、Winnow 等等。实验结果表明,Boosting、Flexible Bayes、SVM、Winnow 方法是目前较好的垃圾邮件过滤方法,它们在评测语料上的结果已经达到很高水平,但是,要走向真正实用化,还有很多的工作要做。 相似文献
9.
基于内容的垃圾邮件过滤问题是Internet安全技术研究的一个重点问题,而基于贝叶斯的分类方法在垃圾邮件处理上表现出了很高的准确度,因此受到了广泛的关注。在朴素贝叶斯算法的基础上,提出了一种基于最小风险贝叶斯方法同Boosting算法相结合的邮件过滤改进算法,提高了分类的精确度。实验证明,算法在邮件过滤中有更好的表现。 相似文献
10.
基于神经网络的"垃圾"邮件过滤系统设计 总被引:2,自引:0,他引:2
为了对垃圾邮件进行有效地过滤,以神经网络作为分类器,采用由垃圾邮件发送者进行确认的邮件认证方法设计了邮件过滤系统。神经网络的自学习、自适应能力解决了垃圾邮件特征不断变化而过滤方法相对固定的矛盾。新的垃圾邮件认证方法使发送垃圾邮件比接收垃圾邮件更费时间,减少了用户收到垃圾邮件的数量。 相似文献
11.
Automatic thesaurus construction for spam filtering using revised back propagation neural network 总被引:1,自引:0,他引:1
Email has become one of the fastest and most economical forms of communication. Email is also one of the most ubiquitous and pervasive applications used on a daily basis by millions of people worldwide. However, the increase in email users has resulted in a dramatic increase in spam emails during the past few years. This paper proposes a new spam filtering system using revised back propagation (RBP) neural network and automatic thesaurus construction. The conventional back propagation (BP) neural network has slow learning speed and is prone to trap into a local minimum, so it will lead to poor performance and efficiency. The authors present in this paper the RBP neural network to overcome the limitations of the conventional BP neural network. A well constructed thesaurus has been recognized as a valuable tool in the effective operation of text classification, it can also overcome the problems in keyword-based spam filters which ignore the relationship between words. The authors conduct the experiments on Ling-Spam corpus. Experimental results show that the proposed spam filtering system is able to achieve higher performance, especially for the combination of RBP neural network and automatic thesaurus construction. 相似文献
12.
基于BP神经网络的垃圾邮件过滤器研究 总被引:1,自引:0,他引:1
针对电子邮件特征向量庞大的问题,采用K-L变换与遗传算法(GeneticAlgorithm)相结合的KLGA算法对邮件向量进行降维。对于基于BP神经网络的邮件过滤器,采用遗传算法来优化神经网络权值,进一步提高邮件分类效果。通过试验数据表明,此优化方法能够快速、高效地对垃圾邮件进行过滤。 相似文献
13.
近年来,随着生活节奏的提高和互联网的迅速发展,人们更倾向于在众多社交平台上用短文本进行交流,进而可能有人通过发布垃圾文本妨碍人们的正常社交,扰乱网络的绿色环境.为了解决这个问题,我们提出了基于TF-IDF和改进BP神经网络的社交平台垃圾文本检测的方法.通过该方法,实现对社交平台上的垃圾文本过滤.首先,通过结巴分词和去停分词构造关键词数据集;其次,对文本表示的关键词向量运用计算各关键词的权重从而对文本向量进行降维,得到特征向量;最后,在此基础上,运用BP神经网络分类器对短文本进行分类,检测出垃圾文本并进行过滤.实验结果表明用该方法在1000维文本特征向量的情况下分类平均准确率达到了97.720%. 相似文献
14.
该文介绍了神经网络模型在垃圾邮件过滤中的应用。首先对通过浏览器收集到的邮件进行分析,将其转换为HTML源代码的形式,再根据HTML语言的特点对其进行特征提取,从而达到邮件预处理的目的。随后又采用LVQ神经网络建立分类器模型,以达到最终分离正常邮件(ham)和垃圾邮件(spam)的目的,对比实验表明,结合HTML代码的特征提取和LVQ神经网络的分类器模型效果更好。 相似文献
15.
16.
垃圾邮件的处理是电子邮件服务中非常重要的功能,该文在对标准邮件集表示为向量空间模型,降维处理处理工作的基础上,运用神经网络集成的方法来构造邮件分类器,对邮件进行过滤;该方法在垃圾邮件语料库上进行了实验,实验证明该方法对于垃圾邮件的过滤有较好的效果。 相似文献
17.
A comparative study for content-based dynamic spam classification using four machine learning algorithms 总被引:1,自引:0,他引:1
The growth of email users has resulted in the dramatic increasing of the spam emails during the past few years. In this paper, four machine learning algorithms, which are Naïve Bayesian (NB), neural network (NN), support vector machine (SVM) and relevance vector machine (RVM), are proposed for spam classification. An empirical evaluation for them on the benchmark spam filtering corpora is presented. The experiments are performed based on different training set size and extracted feature size. Experimental results show that NN classifier is unsuitable for using alone as a spam rejection tool. Generally, the performances of SVM and RVM classifiers are obviously superior to NB classifier. Compared with SVM, RVM is shown to provide the similar classification result with less relevance vectors and much faster testing time. Despite the slower learning procedure, RVM is more suitable than SVM for spam classification in terms of the applications that require low complexity. 相似文献
18.
电子邮件是一种重要的通信工具,但是垃圾邮件问题一直影响着人们日常的工作生活.不断改进垃圾邮件的检测技术、提高垃圾邮件的检测速度和准确率有着重要的研究意义和现实意义.双向门控循环单元(BiGRU)和卷积神经网络(CNN)广泛应用于文本分类领域,二者的结合可以充分发挥BiGRU上下文依赖关系提取能力以及CNN特征提取能力,... 相似文献