共查询到18条相似文献,搜索用时 125 毫秒
1.
2.
3.
对垃圾短信进行过滤识别研究具有重要的社会价值和时代背景意义。针对传统的人工设计短信特征选择方法中存在数据稀疏、特征信息共现不足和特征提取困难的问题,提出一种基于词向量和卷积神经网络(CNN)的垃圾短信识别方法。首先,使用word2vec的skip-gram模型根据维基中文语料库训练出短信数据集中每个词的词向量,并将每条短信中各个词组所对应的词向量组成表示短信的二维特征矩阵;然后,把特征矩阵作为卷积神经网络的输入,通过卷积层的不同尺度卷积核提取多尺度短信特征,以及利用1-max pooling池化策略得到局部最优特征;最后,将局部最优特征组成融合特征向量放入softmax分类器中得出分类结果。在10万条短信数据上进行的实验结果表明,在特征提取方式相同的情况下,基于卷积神经网络模型的识别准确率能够达到99.5%,比传统的机器学习模型提高了2.4%~5.1%,且各模型的识别准确率均保持在94%以上。 相似文献
4.
基于CAPTCHA和Winnow算法的垃圾短信过滤研究 总被引:1,自引:1,他引:0
为识别并过滤掉日益增多的垃圾短信,提出了基于全自动人机识别系统(CAPTCHA)和Winnow算法的过滤方法。在CAPTCHA方法中,根据用户能否正确辨认图片,人类和计算机能被辨别,该方法能有效地过滤计算机发送的组垃圾短信。改进的Winnow过滤器可以直接处理原始文本,节省了中文分词时间,而且利用了复合分类思想,提高了分类精度。实验结果表明,CAPTCHA和改进的Winnow算法相结合能较准确地过滤掉垃圾短信。 相似文献
5.
6.
7.
在一个垃圾短信泛滥的时代,清除垃圾短信将耗费大量的时间和精力,挖掘垃圾短信的发送特征是解决这一问题的关键。在分析现有的短信过滤机制(算法)的基础上,根据中值滤波的思想,将短信发送者离散的交互单元合并成一个连续的交互单元,进而提出有效交互周期的概念,以入出比、有效交互周期等特征建立垃圾短信的综合过滤算法。通过对2000万条真实短信记录进行实验,统计得到过滤算法针对垃圾短信的查全率达到99.51%,查准率为49.90%。实验结果表明,算法提高了垃圾短信检测的效率和速度,可适用于垃圾短信实时拦截技术。 相似文献
8.
潘夏福 《电脑编程技巧与维护》2017,(4)
随着手机用户的增长,垃圾短信日益泛滥.传统的垃圾短信过滤系统误判率较高,使用基于云计算的分类算法实现垃圾短信语义识别系统.系统使用概率分类算法进行垃圾短信语义识别,并采用基于云计算的语料库作为算法的训练集.实验表明,系统在垃圾短信识别方面具有很高的召回率和正确率,系统的设计为垃圾过滤提供了一种新的设计方法. 相似文献
9.
10.
移动环境下的垃圾短信过滤系统的研究 总被引:6,自引:0,他引:6
提出了一种分布式的垃圾短信过滤系统,它适合于移动网络,具有自学习能力,能够及时发现垃圾信息源,有效的过滤垃圾短信。在传统以词为属性的贝叶斯过滤算法的基础上,加入了规则和长度信息,利用互信息减小单词属性的个数。实验表明,它在短信过滤方面具有空间占用小和性能更好的特点,适合在移动电话上使用。同时还提出了一种垃圾短信发送者的可能性排名的方法。 相似文献
11.
《浙江大学学报:C卷英文版》2012,(3):187-195
This paper addresses the challenge of large margin classification for spam filtering in the presence of an adversary who disguises the spam mails to avoid being detected. In practice, the adversary may strategically add good words indicative of a legitimate message or remove bad words indicative of spam. We assume that the adversary could afiord to modify a spam message only to a certain extent, without damaging its utility for the spammer. Under this assumption, we present a large margin approach for classification of spam messages that may be disguised. The proposed classifier is formulated as a second-order cone programming optimization. We performed a group of experiments using the TREC 2006 Spam Corpus. Results showed that the performance of the standard support vector machine (SVM) degrades rapidly when more words are injected or removed by the adversary, while the proposed approach is more stable under the disguise attack. 相似文献
12.
邮件过滤是指从大量的邮件中过滤掉含有无用信息的垃圾邮件,以帮助用户得到所需的有用邮件。本文将介绍一个基于向量空间模型的OUTLOOK邮件过滤器的设计与实现,它包含了邮件过滤和训练两个子系统,其过滤方法还对传统的向量空间模型法做了改进,使之更适合于垃圾邮件过滤。 相似文献
13.
在传统垃圾短信过滤系统基础上引入了中文分词算法和朴素贝叶斯算法,使其具有了自学习能力,克服了传统垃圾短信系统需要人工设置、无法适应短信内容变化、误判率高的缺点。实践证明该短信过滤系统具有较高的准确率和适应力。 相似文献
14.
《Information Sciences》2007,177(10):2167-2187
In this paper we study supervised and semi-supervised classification of e-mails. We consider two tasks: filing e-mails into folders and spam e-mail filtering. Firstly, in a supervised learning setting, we investigate the use of random forest for automatic e-mail filing into folders and spam e-mail filtering. We show that random forest is a good choice for these tasks as it runs fast on large and high dimensional databases, is easy to tune and is highly accurate, outperforming popular algorithms such as decision trees, support vector machines and naïve Bayes. We introduce a new accurate feature selector with linear time complexity. Secondly, we examine the applicability of the semi-supervised co-training paradigm for spam e-mail filtering by employing random forests, support vector machines, decision tree and naïve Bayes as base classifiers. The study shows that a classifier trained on a small set of labelled examples can be successfully boosted using unlabelled examples to accuracy rate of only 5% lower than a classifier trained on all labelled examples. We investigate the performance of co-training with one natural feature split and show that in the domain of spam e-mail filtering it can be as competitive as co-training with two natural feature splits. 相似文献
15.
16.
贝叶斯过滤算法是反垃圾邮件过滤技术中应用最为广泛的方法之一。考虑到邮件的错误分类对邮件接收者带来的损失不同,引入判定垃圾邮件是判定正常邮件的λ倍作为最终邮件分类依据;同时,为了提高贝叶斯过滤算法的分类质量,运用遗传算法来对邮件中正文和标题的特征词在邮件分类中不同的重要程度做区分。最后用实际的邮件样本对改进后的算法进行验证,验证结果表明,利用遗传算法优化配合贝叶斯过滤算法能有效提高邮件分类的质量。 相似文献
17.
垃圾邮件的智能过滤系统设计探讨 总被引:8,自引:0,他引:8
Internet的迅速发展,电子邮件的应用变得十分广泛,但是许多无用、有害信息随之而来。通过对垃圾邮件的分析、处理,设计了"基于用户个性化兴趣"的垃圾邮件智能过滤概念系统,首次提出将邮件向量同规则向量统一定义,有选择地进行二次过滤等理论。功能设计完善,证明了其思想优于目前的某些主流邮件过滤系统。 相似文献
18.
针对垃圾短信的现状,提出了一种结合信任技术、黑名单过滤技术、关键字过滤技术等的解决方案。该解决方案需要广大手机用户、移动运营商、政府监管部门的共同参与,才能最终达到治理垃圾短信的目的。 相似文献