首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
随着垃圾邮件逐渐成为网络用户的一大困扰,垃圾邮件过滤技术的研究显得越来越重要。针对电子邮件存在数据极度稀疏性、高特征维数和多重相关性等特点,本文提出了一种基于偏最小二乘原理的特征抽取方法,可以通过对原始特征进行线性组合抽取出既可反映邮件内容又可反映邮件类型的潜在语义特征,并可解决多重相关性问题。在Enron-Spam邮件数据集上的实验结果表明,同χ2特征选择方法相比,该方法在较低维数上可以获取良好的邮件过滤性能。  相似文献   

2.
基于网络会话层的垃圾邮件行为识别   总被引:1,自引:0,他引:1  
目前最流行的邮件内容过滤技术工作在网络应用层,通过对邮件内容的分析来判别邮件的合法性,无法避免由于垃圾邮件的泛滥而造成的网络带宽资源的浪费。针对这种情况,论文提出一种基于网络会话层的垃圾邮件行为识别方法。该方法运用决策树算法,对邮件发送过程中的网络会话层数据进行挖掘,发现垃圾邮件的行为规律,在垃圾邮件的内容数据发送前就对其实施过滤,有效地解决了垃圾邮件占用网络带宽的问题,是对当前各种垃圾邮件过滤技术的一个有益的补充。  相似文献   

3.
偏最小二乘法中主成分数确定的新方法   总被引:9,自引:1,他引:8  
目的:合理地确定偏最小二乘法中的主成分数,方法:基于对 加权原理建立了适用于矩阵元素缺损数据的加权偏小二乘算法,将此算法应用于按矩阵元素分组的交互证实(Cross-validation),根据最大熵原理采用方差平方和σ2(自变量短阵残差的平方和/自由度)作为主成分数的判据,结果与结论:通过对Monte-Carlo法产生的多组分光光度数据进行计算,与常规的偏最小二乘法相比更加符合理论值,表明本算法较好地解决了偏最小二乘法中主成分数的确定问题。  相似文献   

4.
融入深度学习的偏最小二乘优化方法   总被引:2,自引:0,他引:2  
偏最小二乘在多元变量分析中得到了广泛的应用。但偏最小二乘方法内部采用主成分分析,不能充分表达数据的非线性特征,对非线性数据的预测精度较低。提出了一种融入深度学习的偏最小二乘优化方法,该方法利用深度学习的稀疏自编码器对特征空间提取非线性结构,将提取的特征成分取代偏最小二乘中的成分,从而形成能适应非线性的模型。分别采用大承气汤、麻杏石甘汤、葛根芩连汤和UCI数据集的数据进行分析处理,实验结果表明,融入深度学习的偏最小二乘优化方法能较好反映中医药数据的特征。  相似文献   

5.
偏最小二乘法内部采用主成分分析,不能充分表达数据的非线性特征,对非线性数据的预测精度较低。为此,提出一种融合受限玻尔兹曼机与偏最小二乘的分析预测方法。该方法利用受限玻尔兹曼机对特征空间提取非线性结构,将提取的特征成分取代偏最小二乘中的成分,从而得到适应非线性的模型。实验结果表明,融合受限玻尔兹曼机与偏最小二乘法的分析方法能较好地反映数据的非线性特征。  相似文献   

6.
本文针对多模态间歇过程数据多中心和模态方差差异明显的问题,提出了一种基于局部近邻标准化偏最小二乘方法.首先,采用统计模量方法处理间歇过程数据,再利用局部近邻标准化方法将统计模量后的训练数据进行高斯化处理,建立偏最小二乘监控模型,确定控制限;然后,同样对统计模量后的测试数据进行局部近邻标准化处理,再计算测试数据的高斯偏最小二乘监控指标,进行过程监视及故障检测.最后,通过数值实例和青霉素发酵过程验证方法有效性.实验结果表明所提方法解决了故障样本近邻集跨模态问题,对多模态数据具有更好的故障检测能力.  相似文献   

7.
基于内容的垃圾邮件过滤技术综述   总被引:67,自引:3,他引:67  
垃圾邮件问题日益严重,受到研究人员的广泛关注。基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。目前基于内容的垃圾邮件过滤主要包括基于规则的方法和基于概率统计的方法。本文综述了目前用于垃圾邮件过滤研究的各种语料和评价方法,并总结了目前使用的垃圾邮件过滤技术以及它们之间的对比实验,包括Ripper、决策树、Rough Set 、Rocchio 、Boosting、Bayes、kNN、SVM、Winnow 等等。实验结果表明,Boosting、Flexible Bayes、SVM、Winnow 方法是目前较好的垃圾邮件过滤方法,它们在评测语料上的结果已经达到很高水平,但是,要走向真正实用化,还有很多的工作要做。  相似文献   

8.
刘芬  帅建梅 《计算机工程》2010,36(16):157-160
提出以图像的梯度直方图和颜色直方图作为分类特征,分析最小二乘支持向量机(LS-SVM)算法以及该算法与传统SVM算法的区别,比较传统分类算法与LS-SVM算法的分类准确度,将LS-SVM算法用于图像垃圾邮件过滤。实验结果表明,该方法能提高图像垃圾邮件的检测率。  相似文献   

9.
基于内容的协同过滤器利用用户关于误判和漏判信息的反馈,对电子邮件进行过滤,可以提高过滤器跟踪垃圾邮件中概念漂移的能力,但这类方法都对集中式的垃圾邮件过滤做出了隐含假设.为了解决集中式协同邮件过滤的问题,提出了一种基于P2P网络的个性化协同垃圾邮件过滤模型,描述了其系统结构和基于签名的系统设计与实现方法.实现了一个原型系统,收集使用其作为垃圾邮件过滤器的用户的数据进行分析.实验结果分析表明,这种个性化协同垃圾邮件过滤是准确和有效的.  相似文献   

10.
针对一体化飞行器高度耦合的非线性气动问题,提出了一种基于移动最小二乘法的气动力数据建模方法;首先,对影响模型精度的因素进行了分析;接着,在构建移动最小二乘模型时采用遗传算法获取最佳支撑域半径以及最佳影响因子β,提高近似精度从而达到减少样本点的目的;得到泛化能力较强的气动力模型,并与偏最小二乘方法的建模结果进行对比;实验结果表明:移动最小二乘法的建模效果优于偏最小二乘方法,预测误差较小,证明了将该方法应用于气动数据建模是可行的。  相似文献   

11.
为了得到实用性强的垃圾邮件过滤方法,将距离函数分类法首次引入到垃圾邮件过滤中.在通用邮件语料库上进行测试,并与目前过滤性能较好的KNN算法进行比较,实验结果显示距离函数分类法中的类中心向量法不适合用于垃圾邮件的过滤,而类重心向量法在保持较高过滤性能的同时,具有训练和过滤速度快的优点,是一种理想实用的垃圾邮件过滤方法.  相似文献   

12.
针对电子邮件应用中垃圾邮件危害日益严重的问题,基于机器学习的垃圾邮件过滤方法正成为当前互联网应用领域的研究热点之一.通过对现有基于机器学习的垃圾邮件处理方法的分析研究,并结合中文信息处理的特点,提出一种基于支持向量机SVM(Support Vector Machine)的中文垃圾邮件过滤方法并加以设计实现.实验表明,在有限样本情况下,基于SVM的中文垃圾邮件过滤方法具有较高的准确性和稳定性.  相似文献   

13.
本文针对垃圾邮件过滤问题,结合中文自身的特点,把广泛适用于英文文本和邮件分类的朴素贝叶斯过滤方法应用在垃圾邮件网关邮件过滤层;把信息增益修剪方法经过改进作为中文特征选择方法,应用在数据管理层;从而极大提高了垃圾邮件的过滤精度。  相似文献   

14.
基于神经网络的"垃圾"邮件过滤系统设计   总被引:2,自引:0,他引:2  
为了对垃圾邮件进行有效地过滤,以神经网络作为分类器,采用由垃圾邮件发送者进行确认的邮件认证方法设计了邮件过滤系统。神经网络的自学习、自适应能力解决了垃圾邮件特征不断变化而过滤方法相对固定的矛盾。新的垃圾邮件认证方法使发送垃圾邮件比接收垃圾邮件更费时间,减少了用户收到垃圾邮件的数量。  相似文献   

15.
《Knowledge》2007,20(3):249-254
The increasing volumes of unsolicited bulk e-mail (also known as spam) are bringing more annoyance for most Internet users. Using a classifier based on a specific machine-learning technique to automatically filter out spam e-mail has drawn many researchers’ attention. This paper is a comparative study the performance of three commonly used machine learning methods in spam filtering. On the other hand, we try to integrate two spam filtering methods to obtain better performance. A set of systematic experiments has been conducted with these methods which are applied to different parts of an e-mail. Experiments show that using the header only can achieve satisfactory performance, and the idea of integrating disparate methods is a promising way to fight spam.  相似文献   

16.
结合邮件的半结构化特征,将最大熵模型引入垃圾邮件过滤中,构造出基于最大熵模型的垃圾邮件过滤系统框架.在此基础上,将其与Outlook提供的PIA相结合,利用.NET技术开发出基于最大熵模型的垃圾邮件过滤插件,在客户端实现了基于内容的垃圾邮件过滤,较好地解决了垃圾邮件的问题.  相似文献   

17.
根据电子邮件中正常邮件和垃圾邮件的概率特性,将在信号处理领域应用广泛的最大熵模型引入到邮件过滤中,并结合邮件的半结构化特性,形成邮件特征向量,给出传统特征函数的改进定义.在此基础上,构造出基于最大熵模型的邮件过滤方法的基本框架.实验结果表明,这种过滤方法表现出了良好的性能.  相似文献   

18.
《Information Sciences》2007,177(10):2167-2187
In this paper we study supervised and semi-supervised classification of e-mails. We consider two tasks: filing e-mails into folders and spam e-mail filtering. Firstly, in a supervised learning setting, we investigate the use of random forest for automatic e-mail filing into folders and spam e-mail filtering. We show that random forest is a good choice for these tasks as it runs fast on large and high dimensional databases, is easy to tune and is highly accurate, outperforming popular algorithms such as decision trees, support vector machines and naïve Bayes. We introduce a new accurate feature selector with linear time complexity. Secondly, we examine the applicability of the semi-supervised co-training paradigm for spam e-mail filtering by employing random forests, support vector machines, decision tree and naïve Bayes as base classifiers. The study shows that a classifier trained on a small set of labelled examples can be successfully boosted using unlabelled examples to accuracy rate of only 5% lower than a classifier trained on all labelled examples. We investigate the performance of co-training with one natural feature split and show that in the domain of spam e-mail filtering it can be as competitive as co-training with two natural feature splits.  相似文献   

19.
通过对垃圾邮件的现状、特征、以及现有的垃圾邮件过滤技术的分析研究,提出一种基于过滤规则和IP信誉的垃圾邮件过滤技术.方法改进了传统的黑白名单技术,加入了评分机制,对IP进行评分,把IP信誉细分为四个等级,分别为优、良、中、差,并结合基于过滤规则的垃圾邮件过滤技术,互补不足,以达到更好的垃圾邮件过滤效果.同时,设计加入了用户反馈,以弥补因误判而造成的损失.实验表明,设计适于用户终端使用,有较高的可行性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号