首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
传统的垃圾短信过滤方案,以垃圾短信中出现的敏感词作为判断的依据,却忽略了正常短信中出现的词对分类的贡献,并且由于短信用语的灵活性,特征提取难度较大。提出了一种基于svm算法对垃圾短信进行监控和过滤的方案,该方案根据短信内容、短信长度等特征,对短信文本进行向量空间的表示。通过机器学习的方式,对垃圾短信进行判断,过滤。相比传统方法而言,本系统在过滤准确度和效率两方面均获得大幅度提升。  相似文献   

2.
基于朴素贝叶斯和支持向量机的自适应垃圾短信过滤系统   总被引:1,自引:0,他引:1  
金展  范晶  陈峰  徐从富 《计算机应用》2008,28(3):714-718
随着短信业务的不断发展,垃圾短信的特征和内容也在不断变化,传统垃圾短信过滤系统中存在的主要问题是,短信特征和内容未能得到及时更新而导致过滤性能降低。考虑朴素贝叶斯的快速统计分类及支持向量机(SVM)的增量训练等特点,将其应用于垃圾短信过滤中,并把分析结果及时反馈给在线过滤子系统,使得系统具有更好的自适应性。实验结果表明,该方法可有效地解决当前垃圾短信过滤系统中存在的问题。  相似文献   

3.
赖文辉  乔宇鹏 《计算机应用》2018,38(9):2469-2476
对垃圾短信进行过滤识别研究具有重要的社会价值和时代背景意义。针对传统的人工设计短信特征选择方法中存在数据稀疏、特征信息共现不足和特征提取困难的问题,提出一种基于词向量和卷积神经网络(CNN)的垃圾短信识别方法。首先,使用word2vec的skip-gram模型根据维基中文语料库训练出短信数据集中每个词的词向量,并将每条短信中各个词组所对应的词向量组成表示短信的二维特征矩阵;然后,把特征矩阵作为卷积神经网络的输入,通过卷积层的不同尺度卷积核提取多尺度短信特征,以及利用1-max pooling池化策略得到局部最优特征;最后,将局部最优特征组成融合特征向量放入softmax分类器中得出分类结果。在10万条短信数据上进行的实验结果表明,在特征提取方式相同的情况下,基于卷积神经网络模型的识别准确率能够达到99.5%,比传统的机器学习模型提高了2.4%~5.1%,且各模型的识别准确率均保持在94%以上。  相似文献   

4.
基于CAPTCHA和Winnow算法的垃圾短信过滤研究   总被引:1,自引:1,他引:0  
为识别并过滤掉日益增多的垃圾短信,提出了基于全自动人机识别系统(CAPTCHA)和Winnow算法的过滤方法。在CAPTCHA方法中,根据用户能否正确辨认图片,人类和计算机能被辨别,该方法能有效地过滤计算机发送的组垃圾短信。改进的Winnow过滤器可以直接处理原始文本,节省了中文分词时间,而且利用了复合分类思想,提高了分类精度。实验结果表明,CAPTCHA和改进的Winnow算法相结合能较准确地过滤掉垃圾短信。  相似文献   

5.
范晶  刘菊新  陈峰  徐从富 《计算机应用》2008,28(4):1084-1086
提出了一种综合集成黑白名单过滤模块和综合评价函数模块的垃圾短信在线过滤系统架构,引入了两层Hash函数和基于朴素贝叶斯的概率计算方法,对疑似垃圾短信从内容、长度、频率等特征上进行深入分析,实现了海量短信的实时高效过滤,并有效地解决了传统垃圾短信过滤系统中存在的问题。  相似文献   

6.
基于Base64编码的垃圾图片过滤方法   总被引:2,自引:0,他引:2       下载免费PDF全文
针对目前直接提取图片文本特征费时且分类准确率不高,以及使用图像属性特征过滤垃圾图片召回率低下等问题,提出一种快速有效的垃圾图片过滤方法。在使用4-gram切分Base64编码后的图片文本后,通过Binary特征将图片特征项表示为Binary向量,并训练支出向量机分类器来识别垃圾图片。实验结果表明,该方法不仅能够识别不同格式的垃圾图片,而且垃圾图片识别精确率、召回率和F1值分别可达99.85%、99.49%和99.67%。  相似文献   

7.
竺吴辉  王美清 《计算机应用》2012,32(12):3565-3568
在一个垃圾短信泛滥的时代,清除垃圾短信将耗费大量的时间和精力,挖掘垃圾短信的发送特征是解决这一问题的关键。在分析现有的短信过滤机制(算法)的基础上,根据中值滤波的思想,将短信发送者离散的交互单元合并成一个连续的交互单元,进而提出有效交互周期的概念,以入出比、有效交互周期等特征建立垃圾短信的综合过滤算法。通过对2000万条真实短信记录进行实验,统计得到过滤算法针对垃圾短信的查全率达到99.51%,查准率为49.90%。实验结果表明,算法提高了垃圾短信检测的效率和速度,可适用于垃圾短信实时拦截技术。  相似文献   

8.
随着手机用户的增长,垃圾短信日益泛滥.传统的垃圾短信过滤系统误判率较高,使用基于云计算的分类算法实现垃圾短信语义识别系统.系统使用概率分类算法进行垃圾短信语义识别,并采用基于云计算的语料库作为算法的训练集.实验表明,系统在垃圾短信识别方面具有很高的召回率和正确率,系统的设计为垃圾过滤提供了一种新的设计方法.  相似文献   

9.
随着微博平台的快速发展,垃圾信息检测与过滤也面临着巨大的考验,实时精确地识别垃圾信息对于提高用户的体验以及微博平台的可持续发展意义重大.本文根据新浪微博的真实数据,提出了一种基于多特征的垃圾微博检测方法.首先,提取微博的显式特征(用户特征、内容特征);然后利用文档主题生成模型(LDA)提取微博中的隐含主题特征;最后根据所提取的微博特征利用支持向量机(SVM)构建分类器.实验结果表明,该方法相比于现有方法在准确率和F1值方面都有一定的提升.  相似文献   

10.
移动环境下的垃圾短信过滤系统的研究   总被引:6,自引:0,他引:6  
邓维维  彭宏 《计算机应用》2007,27(1):221-224
提出了一种分布式的垃圾短信过滤系统,它适合于移动网络,具有自学习能力,能够及时发现垃圾信息源,有效的过滤垃圾短信。在传统以词为属性的贝叶斯过滤算法的基础上,加入了规则和长度信息,利用互信息减小单词属性的个数。实验表明,它在短信过滤方面具有空间占用小和性能更好的特点,适合在移动电话上使用。同时还提出了一种垃圾短信发送者的可能性排名的方法。  相似文献   

11.
This paper addresses the challenge of large margin classification for spam filtering in the presence of an adversary who disguises the spam mails to avoid being detected. In practice, the adversary may strategically add good words indicative of a legitimate message or remove bad words indicative of spam. We assume that the adversary could afiord to modify a spam message only to a certain extent, without damaging its utility for the spammer. Under this assumption, we present a large margin approach for classification of spam messages that may be disguised. The proposed classifier is formulated as a second-order cone programming optimization. We performed a group of experiments using the TREC 2006 Spam Corpus. Results showed that the performance of the standard support vector machine (SVM) degrades rapidly when more words are injected or removed by the adversary, while the proposed approach is more stable under the disguise attack.  相似文献   

12.
邮件过滤是指从大量的邮件中过滤掉含有无用信息的垃圾邮件,以帮助用户得到所需的有用邮件。本文将介绍一个基于向量空间模型的OUTLOOK邮件过滤器的设计与实现,它包含了邮件过滤和训练两个子系统,其过滤方法还对传统的向量空间模型法做了改进,使之更适合于垃圾邮件过滤。  相似文献   

13.
在传统垃圾短信过滤系统基础上引入了中文分词算法和朴素贝叶斯算法,使其具有了自学习能力,克服了传统垃圾短信系统需要人工设置、无法适应短信内容变化、误判率高的缺点。实践证明该短信过滤系统具有较高的准确率和适应力。  相似文献   

14.
《Information Sciences》2007,177(10):2167-2187
In this paper we study supervised and semi-supervised classification of e-mails. We consider two tasks: filing e-mails into folders and spam e-mail filtering. Firstly, in a supervised learning setting, we investigate the use of random forest for automatic e-mail filing into folders and spam e-mail filtering. We show that random forest is a good choice for these tasks as it runs fast on large and high dimensional databases, is easy to tune and is highly accurate, outperforming popular algorithms such as decision trees, support vector machines and naïve Bayes. We introduce a new accurate feature selector with linear time complexity. Secondly, we examine the applicability of the semi-supervised co-training paradigm for spam e-mail filtering by employing random forests, support vector machines, decision tree and naïve Bayes as base classifiers. The study shows that a classifier trained on a small set of labelled examples can be successfully boosted using unlabelled examples to accuracy rate of only 5% lower than a classifier trained on all labelled examples. We investigate the performance of co-training with one natural feature split and show that in the domain of spam e-mail filtering it can be as competitive as co-training with two natural feature splits.  相似文献   

15.
垃圾邮件泛滥已成为网络时代的一个重要问题,随着垃圾邮件的伪装技术的不断更新,以前主要的几种垃圾邮过滤技术面临着新的挑战。文中提出一种新的基于判别模型的垃圾邮件过滤方法,邮件分类器通过不断的学习来更新特征项的权重,当新的信息到达时,计算所有特征项的权重之和,并将其转化为一个概率值,如果此概率值超过某一阈值时,就认定此信息为垃圾邮件;同时将此方法应用到实时邮件处理环境中。实验结果表明,此方法能明显地提高准确度,有效地降低误判率。  相似文献   

16.
夏超  徐德华 《计算机与现代化》2010,(10):125-128,132
贝叶斯过滤算法是反垃圾邮件过滤技术中应用最为广泛的方法之一。考虑到邮件的错误分类对邮件接收者带来的损失不同,引入判定垃圾邮件是判定正常邮件的λ倍作为最终邮件分类依据;同时,为了提高贝叶斯过滤算法的分类质量,运用遗传算法来对邮件中正文和标题的特征词在邮件分类中不同的重要程度做区分。最后用实际的邮件样本对改进后的算法进行验证,验证结果表明,利用遗传算法优化配合贝叶斯过滤算法能有效提高邮件分类的质量。  相似文献   

17.
垃圾邮件的智能过滤系统设计探讨   总被引:8,自引:0,他引:8  
Internet的迅速发展,电子邮件的应用变得十分广泛,但是许多无用、有害信息随之而来。通过对垃圾邮件的分析、处理,设计了"基于用户个性化兴趣"的垃圾邮件智能过滤概念系统,首次提出将邮件向量同规则向量统一定义,有选择地进行二次过滤等理论。功能设计完善,证明了其思想优于目前的某些主流邮件过滤系统。  相似文献   

18.
针对垃圾短信的现状,提出了一种结合信任技术、黑名单过滤技术、关键字过滤技术等的解决方案。该解决方案需要广大手机用户、移动运营商、政府监管部门的共同参与,才能最终达到治理垃圾短信的目的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号