首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 179 毫秒
1.
基于通用网络测量平台的反垃圾邮件技术   总被引:5,自引:0,他引:5  
以通用网络测量平台为基础,提出了一种新的不同于诸如黑名单和邮件过滤等现有反垃圾邮件技术的检测和防范垃圾邮件的方法。在本地网的监测点将进出的与邮件相关的通信量汇聚成邮件流,并区分成无效邮件流、正常邮件流和异常邮件流,然后根据这3种邮件流的统计特性,检测出本地网中产生的广告邮件、垃圾邮件病毒以及异常邮件行为,并通过基于策略的响应机制实施拦截和预警。  相似文献   

2.
为完成在邮件服务器内部过滤垃圾邮件的任务,参考经典贝叶斯模型,研究有自动调节能力的模型算法。以实验室样本邮件为目标,定义过滤器算法模型,并对系统环境变量设置进行讨论[5],最后对测试邮件文件进行加工,证明了模型设计的合理性。  相似文献   

3.
为实现对电子邮件中垃圾邮件的过滤,提出一种新的邮件过滤算法和邮件过滤Agent的设计方法。Agent通过算法学习用户接收邮件的信息及用户对邮件的处理习惯,据此最终确定邮件是否为垃圾邮件或病毒邮件,从而过滤掉非正常邮件。实验测试表明,Agent对邮件过滤的正确率可达85%,为现有电子邮件系统提供了一种改进方法。  相似文献   

4.
针对互联网邮件中垃圾邮件占比暴增的问题,提出了一种基于分类代理MCP的动态检测算法. 该方法基于近半年时间对校园网邮件宿主机及各代理虚拟机间传输的会话日志的采集,针对记录中各类投递状态及状态消息集进行了行为分析,最终达到对垃圾邮件的有效检测,从而为分拣提供依据. 实验结果表明,在持续进行了若干频次的分类策略调节后,该检测算法的准确度可高达96.1%. 该设计可对垃圾邮件宿主机及代理虚拟机的行为进行有效检测,从而彻底抑制垃圾邮件的产生.  相似文献   

5.
针对朴素贝叶斯算法应用于反垃圾邮件过滤时,其有效性十分依赖于对邮件内容的有效建模,而邮件内容建模方面研究尚不成熟限制了贝叶斯方法在垃圾邮件过滤中的性能.采用了三种概率分布对邮件内容进行建模,据此提出了3种概率分布下的朴素贝叶斯算法.为了提高训练效率,算法采用了一种增量式的垃圾邮件过滤方法.在trec05p-1、trec06p两个公开数据集上对这3种贝叶斯算法进行了实验对比,分析出三种贝叶斯分布的适用范围.从不同分布的邮件内容建模角度出发,为过滤垃圾邮件的方法选择提供了有效依据.  相似文献   

6.
分析了设计完善的邮件服务所必须考虑的关键因素.提出了基于LDAP和JAVA技术的邮件系统模型.同时对在实现Web Mail时所遇到的关键问题,如javamail中的中文处理、发送SMTP认证的邮件、发送含多附件的邮件、从邮件服务器下载附件等作了较为详细的介绍.  相似文献   

7.
贝叶斯网络在过滤垃圾邮件算法中的应用研究   总被引:2,自引:0,他引:2  
为在用户数据流中删除垃圾邮件,研究了具有自我学习能力的自适应邮件过滤系统.在对正常和垃圾2类邮件误分类成本分析的基础上,利用概率性的学习方法创建满足过滤任务需要的过滤器,且讨论使用邮件域名特征变量进行特定邮件过滤并设计了过滤器,最后对实际邮件组进行操作,验证了算法的可靠性.  相似文献   

8.
基于贝叶斯过滤算法的反垃圾邮件策略   总被引:4,自引:0,他引:4  
结合传统贝叶斯算法的数学定理.给出了朴素贝叶斯过滤算法以及该算法在反垃圾邮件中的六个处理步骤,算法通过渐进学习的方式分别建立三个哈希表,并预置相应的阀值来判定收到的邮件是否为垃圾邮件.以实例方式说明了此算法为基础的反垃圾邮件策略,最后指出了朴素贝叶斯算法存在的问题及可能改进的方向,对防范和处理垃圾邮件提供理论依据和实践参考.  相似文献   

9.
目前,许多误用检测系统无法检测未知攻击,而异常检测系统虽然能够精确检测未知攻击,但由于入侵检测固有的特性,入侵事件与正常事件类间存在极大的不平衡性,这导致很难利用机器学习的方法高效地进行入侵行为检测.为此,提出了一种基于信息增益和随机森林分类器的入侵检测系统.为了解决类之间的不平衡性,对训练数据集应用了合成少数过采样算法.提出了一种基于信息增益的特征选择方法,并用于构建一个数据集的特征约减子集.首先,利用随机森林算法从训练集中建立入侵模型,构建误用检测模型,通过网络连接的特征来匹配检测已知攻击.然后,利用信息增益的特征选择方法,根据特征约减获得的特征,将不确定性攻击的网络连接数据通过随机森林进行聚类,进而实现未知攻击的检测.实验采用的NSL-KDD入侵检测数据集是KDDCUP99数据集的增强版本.由于入侵检测固有的特性,NSL-KDD数据集设计时类间存在极大的不平衡性.实验结果表明,结合合成少数过采样算法以及基于特征选择的信息增益的随机森林分类器对少数类别异常检测率可达到0.962.  相似文献   

10.
本文介绍邮政网中邮件流量预测的重要性,预测的几种算法,以及所开发的邮件流量预测系统的主要功能、特点、软硬件平台及采用的主要技术。  相似文献   

11.
随着互联网的发展,网上购物成为主流消费方式,随之产生了大量的商品文本数据,需要对商品进行准确而高效的分类。利用机器学习进行文本分类需要进行复杂的人工设计特征和提取特征过程。随着深度学习领域的发展,基于深度学习的文本分类技术效果显著。设计了一个基于长短期记忆网络(LSTM)的中文文本多分类器。首先对数据进行预处理,利用Tokenizer分词技术将文本处理为计算机可理解的词向量传入LSTM网络,并加入Dropout算法以防止过拟合得出最终的分类模型。将该模型与逻辑回归、多项式朴素贝叶斯、线性支持向量机、随机森林模型进行对比发现,基于LSTM的中文文本多分类方法具有较好的效果。  相似文献   

12.
一种基于多重词典的中文文本情感特征抽取方法   总被引:1,自引:1,他引:0  
情感特征抽取是文本情感分类的重要步骤,正确的选择情感特征并赋予合理的情感权重是保障分类精度的前提。利用基础情感词词典、连词词典及词语距离,提出了一种基于多重词典的中文文本情感特征抽取算法,实验证明该方法优于HM,SO-PMI和词语语义距离等经典的特征抽取算法。  相似文献   

13.
新型智能电表普及后,为了准确检测出电网中的窃电用户,可以结合机器学习的方法.为此,选择了支持向量机、随机森林和迭代决策树3种机器学习中较常用的大数据算法进行分析,通过不断调整试验数据集的大小,对3种算法的效率和准确率进行测试.对比分析结果发现,随机森林算法运行的时间和数据量的大小基本呈线性关系,效率较高,且准确率稳定在86%以上,表现较好.  相似文献   

14.
对已有的N-gram平滑算法进行了系统地分析,分别实现了Absolute、W-B和Katz平滑算法.为解决传统Katz平滑算法在处理某些汉语固定搭配时无法进行概率折扣的问题,利用词性信息构造了新的折扣系数.新的折扣系数使词频越大,折扣越小,后接词越多,折扣越大,满足平滑算法对折扣系数的期望.试验结果表明:新的Katz平滑算法降低了N-gram模型的交叉熵,在汉语分词中应用改进的平滑算法也提高了分词结果的F量度.  相似文献   

15.
在汉语大词汇量连续语音识别中,以往基于最大后验概率准则解码得到的识别结果具有最小的句子错误率,为了得到字错误率最小的识别结果,可以采用最小贝叶斯风险解码策略,通过将识别输出的word lattice转换成为混淆网络以得到最小字错误率的识别结果。在以往混淆网络算法的基础上,根据汉语语言的特点,提出一种改进的构造混淆网络的算法。基于863测试语音库进行的实验表明,与最大后验概率识别结果和以前的两种混淆网络算法的识别结果相比,改进的混淆网络算法有效地降低汉语大词汇量连续语音识别结果的字错误率。  相似文献   

16.
鉴于目前传统文本聚类方法中利用文档间的相似度进行聚类存在的问题,在传统的文本挖掘基础上提出了一种新的文本聚类算法——利用单词超团的二分图文本聚类算法。该算法用文档中单词的关联模式来评估文档间的相似度及主题类别预测,并利用图划分策略来大大降低文档相似度比较算法的复杂度,同时将超团作为特征结构的扩展,可以在一定范围内减少语言信息的丢失,提高聚类效果。经实验证明该算法具有较高的有效性。  相似文献   

17.
针对分布式光伏电站阴影遮挡提出一种基于随机森林算法的人机协同判别方法。通过遮挡机理分析和逆变器遥测参数转换构建组串直流侧电流离散率、太阳高度角、太阳方位角及电站瞬时发电水平等关键特征参数,搭建随机森林遮挡诊断模型。基于网格搜索法和K折交叉验证法优化参数,通过准确率对比确定基于信息增益的分裂方式。对比支持向量、逻辑回归及决策树等主流算法模型,发现随机森林算法在遮挡诊断场景中具有较强的优势,结合专家系统得出诊断方位后,现场验证了“基于信息增益的随机森林和专家系统”方法的有效性。  相似文献   

18.
为了更好地反映空气质量的变化趋势,加强大气污染的防治,开展城市环境空气质量评价的意义重大。有效的空气质量评价方法可以提高评价体系的科学性,督促各个城市环保工作的稳步推进,从而对大气污染治理做出贡献,而空气质量评价算法是空气质量评价的核心。根据影响空气质量的几个基本要素:二氧化硫年平均浓度、二氧化氮年平均浓度、可吸入颗粒物年平均浓度等,创新性地采用随机森林算法对我国113个重点城市的空气质量进行了评价。通过评价指标将模型的评价结果与其他分类算法进行比较,发现随机森林分类模型,无论是在二分类还是多分类中都能够对各个城市地区的空气质量作出较为准确的评估,并进一步得出空气中PM10、PM2.5和O3的浓度是影响各大城市空气质量好坏的主要因素。  相似文献   

19.
分析了中文智能输入技术的研究现状和存在的问题,提出了基于混合n-gram的中文智能输入技术,给出了系统实现的架构,研究了混合2-gram模型的有关问题以及字词网格的求解算法,讨论了自动预测与系统学习功能的实现.测试结果表明拼音到汉字自动转换正确率达到了92.1%,基本实现了预期目标.  相似文献   

20.
为研究学生高考信息与计算机程序设计课程(C语言)成绩的相关性,提出了一种基于随机森林算法的相关性预测与分析模型.首先,对2014—2016年延边大学计算机科学与技术专业的学生相关数据进行了清洗和筛选,并将C语言考试成绩分成5类; 其次,将学生的高考信息作为特征训练随机森林分类模型; 最后,使用LIME解释性模型对影响随机森林的主要特征进行了相关性分析.实验结果表明,影响C语言成绩的主要特征为生源、总成绩、民族、数学和语文.该研究结果可有效识别不同学生学习成绩的主要相关因素,为教师针对不同学生群体设计合理教学模式提供参考依据.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号