首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
为了从大量的电子邮件中检测垃圾邮件,提出了一个基于Hadoop平台的电子邮件分类方法。不同于传统的基于内容的垃圾邮件检测,通过在Map Reduce框架上统计分析邮件收发记录,提取邮件账号的行为特征。然后使用Map Reduce框架并行的实现随机森林分类器,并基于带有行为特征的样本训练分类器和分类邮件。实验结果表明,基于Hadoop平台的电子邮件分类方法大大提高了大规模电子邮件的分类效率。  相似文献   

2.
传统的贝叶斯垃圾邮件过滤系统虽然具有较高的分类准确性,但是在处理邮件时存在效率低、消耗资源量大的问题。本文针对贝叶斯垃圾邮件过滤算法进行了在Hadoop Map Reduce下的研究,并对判定类别的阈值进行了优化,实验表明,本文提出的算法降低了正常邮件的误判率,提高了垃圾邮件判定的准确率和F值,同时提高了垃圾邮件过滤的效率。  相似文献   

3.
冀素琴  石洪波  卫洁 《计算机工程》2012,38(16):203-206
集中式系统框架难以进行海量文本数据分类。为此,提出一种基于Map Reduce的Bagging贝叶斯文本分类算法。介绍朴素贝叶斯文本分类算法,将其与Bagging算法结合,运用Map Reduce并行编程模型,在Hadoop平台上实现算法。实验结果表明,该算法分类准确率较高,运行时间较短,适用于大规模文本数据集的分类学习。  相似文献   

4.
基于Hadoop的句群相似度计算   总被引:2,自引:1,他引:1  
介绍了Hadoop开源框架、Map/Reduce编程模型以及语句相似度计算原理,利用Hadoop框架下的Map/Reduce编程模型实现了句群相似度并行计算方法。通过实验验证了该算法的稳定性和处理大量数据的可行性。  相似文献   

5.
在电子邮件分类的研究中,针对研究垃圾邮件识别问题,垃圾邮件问题日益严重,影响正常工作,受到研究人员的广泛关注.而电子邮件特征维数相当的高,使传统分类方法存在分类速度慢、正确率低的问题.为了加快电子邮件分类速度、提高分类的正确率,更好的过滤出垃圾邮件,提出一种基于支持向量机的电子邮件自动分类方法.采用互信息量法提取电子邮件关键词作为分类特征,选择最优的分类特征,加快分类速度,然后支持向量机模型对分类特征进行学习训练,建立最优电子邮件分类器模型,最后对电子邮件测试集进行分类.UCI垃圾邮件数据库进行仿真,支持向量机识别正确率远远高于神经网络,且分类速度明显加快,能够很好的把垃圾分类出来.支持向量机分类方法是一种有效的电子邮件分类方法,有利于清除拉圾邮件.  相似文献   

6.
随着社交网络的快速发展,海量社交网络的数据挖掘成为一个重要课题;针对海量数据的社交网络分析方法进行研究,以Hadoop的分布式文件系统和Map/Reduce并行方法设计基于Hadoop的分布式数据挖掘框架,在此基础上,通过Map/Reduce的并行方法,将传统数据挖掘算法并行化,以谱聚类的并行为例,阐述转化的过程并对在大数据条件下所面临的内存不足的问题给出相应的算法优化;最后对3个不同量级的数据集进行实验,验证基于Hadoop的社交网络分析平台的框架的合理性和算法并行化的有效性。  相似文献   

7.
本文介绍了Hadoop平台下Map Reduce的并行编程框架,分析了传统Kmeans聚类算法的优缺点,提出基于Canopy的Canopy-Kmeans聚类算法。使用Canopy聚类先对数据进行"粗"聚类,以优化Kmeans聚类算法初始聚类中心的选取。选用Map Reduce并行编程方法。实验表明该方法相对于传统Kmeans聚类算法有着更高的计算效率。  相似文献   

8.
基于神经网络的电子邮件分类与过滤   总被引:2,自引:0,他引:2  
任劼  项婧 《计算机工程与设计》2006,27(6):1021-1024,1064
现在电子邮件的应用非常广泛,已经成为人们生活中一种重要的通讯手段,但各种各样的垃圾邮件也是令我们十分困扰的问题,给出了一种电子邮件的分类过滤方法。电子邮件作为一种半结构化的文档,电子邮件信息包含了固定的语法部分和一定长度的可变文本部分,同时处理这两部分以得到更高的准确度。首先对邮件进行文本处理,得到特征向量;然后使用基于神经网络的方法对邮件进行分类过滤得到邮件分类器;最后通过实验验证分类器的有效性。  相似文献   

9.
李曼 《微型机与应用》2011,30(18):65-68
针对已有增量分类算法只是作用于小规模数据集或者在集中式环境下进行的缺点,提出一种基于Hadoop云计算平台的增量分类模型,以解决大规模数据集的增量分类。为了使云计算平台可以自动地对增量的训练样本进行处理,基于模块化集成学习思想,设计相应Map函数对不同时刻的增量样本块进行训练,Reduce函数对不同时刻训练得到的分类器进行集成,以实现云计算平台上的增量学习。仿真实验证明了该方法的正确性和可行性。  相似文献   

10.
针对当前传统数据库已经不能满足海量农产品安全监控信息的存取及处理需求,借鉴Hadoop平台的分布式文件系统和Map/Reduce并行计算方法设计了农产品安全监控平台的框架,在此基础上,提出了一种用于监测农产品各项指标的Map/Reduce算法;最后通过Linux集群技术,搭建了一个基于Hadoop的农产品安全监控数据存储处理实验性平台,该平台能够有效地对海量农产品数据进行及时存储与处理。实验最终结果表明,相比传统的数据库,该平台能够大幅提升海量农产品数据的吞吐率及数据处理性能,由此验证了平台的合理及有效性。  相似文献   

11.
针对Hadoop平台数据被任务调度感知,进行本地化处理的新特征,探索Haoop平台中Map任务数据访问监控机制。提出Hadoop平台数据访问监控不仅应服务于数据存取效率的提升,还应服务于Map/Reduce并行作业执行效率提升的基本思想,并增加对并行执行多Map任务数据访问开销均衡性的监控。基于该思想,定义Hadoop平台数据访问监控的粒度和监控信息组成;依托Hadoop平台现有结构,设计了基于master-slave的监控体系结构,并给出了监控主要功能模块的具体实现技术及测试结果。  相似文献   

12.
陈若飞  姜文红 《软件》2015,(2):64-68
作为开源云计算平台的核心技术之一,Map Reduce作业处理框架及其作业调度算法,对整个系统的性能起着至关重要的作用,而数据本地性是衡量作业调度算法好坏的一个重要标准,首先本文介绍和分析了Map Reduce基本原理,Map Reduce作业处理机制和Map Reduce作业调度机制及其在数据本地性方面表现出的优缺点等相关内容。其次,针对原生作业调度算法在数据本地性考虑不周全的问题,结合数据预取技术的可行性与优势,通过引入资源预取技术设计并实现一种基于资源预取的Hadoop Map Reduce作业调度算法,使作业执行效率更高。  相似文献   

13.
对基于流的垃圾邮件行为识别技术进行了研究。根据垃圾邮件与正常邮件通信拓扑具有较大差异的特性,引入相似度的概念,提出了一种基于拓扑相似性的垃圾邮件行为识别方法。该方法以收发件人联系表来表征收发件人,计算用户相似度以此将邮件用户划分为多个邮件用户群,通过计算邮件收发件人归属判别邮件是否为垃圾邮件。采用一个辅助分类器方便对原始邮件用户进行判别和分组,最后用真实的邮件集进行实验,结果证明基于拓扑结构相似性分类方法有较好的分类能力。  相似文献   

14.
论述了一种采用组合算法实现的垃圾邮件分类系统,并在Windows平台下用Visual Basic 6.0实现。本系统工作在邮件客户端,基于邮件内容的解析,相对于只使用基于分类器的垃圾邮件分类系统,不仅能有效快速地分类邮件,同时提高了分类的精度、降低误判率。  相似文献   

15.
基于多Bayes网的垃圾邮件智能过滤研究   总被引:2,自引:0,他引:2  
在分析朴素Bayes方法用于垃圾邮件自动过滤中存在的一些问题基础上,提出了一种新的基于多Bayes网的垃圾邮件自动过滤方法。该方法利用多个Bayes网构成的多个分类器同时对邮件进行分类,当前邮件被认定是垃圾邮件当且仅当全部分类器都判断它为垃圾邮件。这种多个分类器同时工作及分类临界值的使用在一定程度上减少了将有用邮件误判为垃圾邮件的可能性。该方法还引入动态学习机制,在邮件分类过程中能够补充训练样本,满足不同用户的邮件分类标准。  相似文献   

16.
刘菊新  徐从富 《计算机工程》2010,36(18):194-196
针对垃圾邮件过滤中代价不对等问题,即正常邮件被误判为垃圾邮件的代价远大于垃圾邮件被误判为正常邮件,构建一种使用 2层结构的组合分类器框架。对样本邮件进行预处理,使文本特征和行为特征相结合。在提高单分类器性能的基础上,对不同分类器进行组合优化,并通过反馈及时调整模型,实现高效的自学习功能。  相似文献   

17.
李新洁  张新有 《微机发展》2011,(10):19-22,27
对反垃圾邮件行为识别技术进行了研究。提出了一种基于会话层的垃圾邮件识别方法,在分析发送过程中的邮件行为特征基础上,提取出能够区分垃圾邮件和正常邮件的行为特征,并采用支持向量机分类算法建立行为特征识别模型,找出垃圾邮件行为规律。该方法在邮件正文发送之前对垃圾邮件进行过滤,能够有效地节省带宽。采用真实的邮件数据集合分别使用行为识别技术与基于内容的过滤技术进行实验,验证该技术具有较好的邮件分类能力。  相似文献   

18.
论述了一种采用组合算法实现的垃圾邮件分类系统,并在Windows平台下用Visual Basic 6.0实现。本系统工作在邮件客户端,基于邮件内容的解析,相对于只使用基于分类器的垃圾邮件分类系统,不仅能有效快速地分类邮件,同时提高了分类的精度、降低误判率。  相似文献   

19.
基于支持向量机的邮件过滤   总被引:1,自引:0,他引:1  
随着万维网的兴起和电子邮件的快速发展,大量的垃圾电子邮件也随之在互联网上泛滥.电子邮件过滤就是要在大量邮件中过滤出垃圾邮件,帮助用户找到所需的邮件。本文讨论了基于机器学习方法实现垃圾邮件过滤的原理,提出一种改进的基于支持向量机的邮件过滤技术,该方法使用互信息度函数,结合Z-测试进行特征选择,使用SVM(支持向量机)构造分类超平面来进行文本分类。实验表明,提高了中文邮件过滤的准确性。  相似文献   

20.
基于内容分析的电子邮件过滤模型的设计   总被引:4,自引:0,他引:4  
电子邮件在给人们带来很多方便的同时,也产生了一个新的问题,即大量垃圾邮件的出现。邮件过滤就是从大量邮件中过滤出垃圾邮件。文章介绍了基于内容分析的邮件过滤,讨论了邮件分类的一种方法,以及使用该方法实现基于内容分析的电子邮件过滤的模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号