共查询到18条相似文献,搜索用时 93 毫秒
1.
基于Winnow算法的反垃圾邮件引擎的设计与实现 总被引:1,自引:1,他引:0
电子邮件(e-mail)是人们日常生活中不可缺少的通信手段之一,但是垃圾邮件却给人们带来了很大的危害。文中主要是针对中文垃圾邮件,给出了一种基于Winnow算法的基于邮件内容的反垃圾邮件引擎原型的设计,对于未知邮件可以达到较好的区分效果。首先对邮件的内容进行解码、分词,采用信息增益选取特征项;然后采用Winnow算法构造分类器;最后采用部分邮件样本进行测试,测试结果可以进行反馈学习。最后的测试数据分析表明系统达到了比较好的效果。 相似文献
2.
实现了基本的Winnow算法、Balanced Winnow算法和带反馈学习功能的Winnow算法,并将其成功地应用于大规模垃圾邮件过滤,分别在SEWM2007和SEWM2008数据集上对上述三个算法进行了对比实验.实验结果表明,Winnow算法及其变体在分类效果和效率上都优于Logiisfic算法. 相似文献
3.
4.
在对垃圾邮件及其防范技术进行全面分析与比较的基础上,针对传统过滤技术的防范和能力不足问题,提出了基于速率控制的空间向量邮件过滤系统设计。该系统改善了传统的单IP和单门限的简单设置,采用多方位多层次的空间过滤系统,再结合客户端的邮件过滤系统,形成了更为有效的垃圾邮件防范能力。 相似文献
5.
基于CAPTCHA和Winnow算法的垃圾短信过滤研究 总被引:1,自引:1,他引:0
为识别并过滤掉日益增多的垃圾短信,提出了基于全自动人机识别系统(CAPTCHA)和Winnow算法的过滤方法。在CAPTCHA方法中,根据用户能否正确辨认图片,人类和计算机能被辨别,该方法能有效地过滤计算机发送的组垃圾短信。改进的Winnow过滤器可以直接处理原始文本,节省了中文分词时间,而且利用了复合分类思想,提高了分类精度。实验结果表明,CAPTCHA和改进的Winnow算法相结合能较准确地过滤掉垃圾短信。 相似文献
6.
基于类别特征选择与反馈学习随机森林算法的邮件过滤系统研究 总被引:1,自引:0,他引:1
针对邮件过滤系统中普遍存在的维数灾难、类别主题差异和反馈信息缺失问题,提出一种基于类别特征选择与反馈学习随机森林算法的邮件过滤模型。该方法将隐含的Dirichlet模型引入到邮件的特征选择环节,在不同类型的邮件集中建立各自的生成模型,分别搜寻构成各个主题的特征信息,有效降低冗余信息和噪声数据对分类性能的影响。反馈学习随机森林算法发挥了决策树集成与反馈学习的优势,实现邮件过滤系统的自我调节,及时捕捉垃圾邮件的变化趋势。在公开的语料库CCERT和Trec06上进行测试,并与典型算法进行比较,实验结果表明所提算法的可行性和有效性。 相似文献
7.
论述了一种采用组合算法实现的垃圾邮件分类系统,并在Windows平台下用Visual Basic 6.0实现。本系统工作在邮件客户端,基于邮件内容的解析,相对于只使用基于分类器的垃圾邮件分类系统,不仅能有效快速地分类邮件,同时提高了分类的精度、降低误判率。 相似文献
8.
9.
文章开始给出了网格和垃圾邮件的定义,在比较分析了国内外反垃圾邮件的关键技术的基础上,提出了在网格范围内进行垃圾邮件过滤的管理系统的设计方案,着重讨论了过滤器的选取和基于内容的贝叶斯过滤算法的实现。 相似文献
10.
11.
基于改进TFIDF算法的文本分类研究 总被引:1,自引:0,他引:1
由于文本分类在信息检索、邮件过滤、网页分类、个性化推荐等领域有着广泛的应用价值,所以自文本分类的概念提出以来,受到了学者们的广泛关注。在文本分类的研究中,学者们运用了很多方法,其中TFIDF是文档特征权重计算的最常用算法之一,但是传统的TFID算法忽略了特征项在类内和类间的分布,导致很多区分度不大的特征项被赋予了较大的权重。针对传统TFIDF算法的不足,本文在IDF的计算过程中,用词条在类内与类间的文档占比来考虑词条在类内与类间的分布。在实验中,用改进的权重算法表示文本向量,通过考察分类的效果,验证了改进算法的有效性。 相似文献
12.
13.
文本分类中基于基尼指数的特征选择算法研究 总被引:17,自引:3,他引:14
随着网络的发展,大量的文档数据涌现在网上,用于处理海量数据的自动文本分类技术变得越来越重要,自动文本分类已成为处理和组织大量文档数据的关键技术.对于采用矢量空间模型(VSM)的大多数分类器来说,文本预处理成为分类的瓶颈,高维的特征空间对于大多数分类器来说是难以忍受的,因此采用适当的文本特征选择算法降低原始文本特征空间的维数成为文本分类的首要任务.目前也有很多的文本特征选择算法,介绍了另一种新的基于基尼指数的文本特征选择算法,使用基尼指数原理进行了文本特征选择的研究,构造了基于基尼指数的适合于文本特征选择的特征选择评估函数.实验表明,基于基尼指数的文本特征选择能进一步提高分类性能,而且计算复杂度小. 相似文献
14.
为了提高中文文本分类的效率与精度,设计了一种新型的分类器。该分类器采用基于词频、互信息和类别信息的综合评估函数进行选择特征;在特征权重计算上,由于传统TF-IDF方法没有考虑特征类间和类内分布,提出了一种将词频和综合评估函数值相结合的权重计算方法;最后设计了一种基于贝叶斯原理的快速分类器。实验证明该分类器简单有效。 相似文献
15.
李琼 《数字社区&智能家居》2009,(36)
为了避免垃圾邮件给电子邮件的使用带来不便,通过对电子邮件地址在垃圾电子邮件黑名单进行对比、过滤便成为一个行之有效的手段。项目从设计思想、具体实现以及性能提升等方面阐述了基于黑名单识别垃圾邮件地址技术。 相似文献
16.
17.
为了提高垃圾邮件过滤系统的对邮件过滤的准确性和返回率,论文改进了传统的贝叶斯定理。提出一种改进的垃圾邮件过滤方法,该方法使用基于单词提取特征值和使用特征向量来描述频率。模型降低了垃圾邮件的错误率,总体上提高了系统的过滤性能。与传统贝叶斯公式的假设不同,系统为垃圾邮件样本的每个特征值分配不同的权值,降低了的垃圾邮件判断误差。实验结果表明,论文提出的垃圾邮件过滤方法能够显着提高准确性和返回率,系统性能得到了较大改进。 相似文献
18.
基于多特征选择的中文文本分类 总被引:1,自引:0,他引:1
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。 相似文献