首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
基于差分贡献的垃圾邮件过滤特征选择方法   总被引:7,自引:0,他引:7       下载免费PDF全文
垃圾邮件过滤本质上是一个二类文本分类问题,特征选择是其一个重要的组成部分。针对垃圾邮件过滤问题的特殊性,基于“差分贡献”的思想对文档频数和互信息量这两种传统的特征选择方法进行了改进,设计了新的垃圾邮件过滤特征选择方法。实验结果表明,基于差分贡献的特征选择方法使得垃圾邮件过滤的精度得到了有效的提高。  相似文献   

2.
一种基于SMO算法的垃圾邮件过滤系统设计   总被引:1,自引:0,他引:1  
陈超  陈盛雄 《福建电脑》2007,(3):131-132
垃圾邮件问题日益严重,给人们带来了极大困扰.基于SMO算法的垃圾邮件过滤方法将统计方法应用到垃圾邮件的判定上,是进行垃圾邮件处理的有效手段.本文介绍了基于SMO算法的垃圾邮件过滤系统模型,并对中文分词、特征选择、SMO算法等关键技术进行了阐述.SMO算法的引入势必会使系统在高效过滤垃圾邮件的同时,提高处理数据的速度.  相似文献   

3.
邮件过滤中一种改进的特征选择方法研究   总被引:1,自引:0,他引:1  
特征选择是基于内容的垃圾邮件过滤的重要过程,它有效地改善过滤效率和精度.文中分析了IG和CHI应用到垃圾邮件过滤中存在的不足,设计了一种改进的评价函数.而由于这种评价函数的特征选择方法只度量了特征与类的关系,忽略了特征之间依赖的关系,因此进一步用基于互信息的聚类方法来消除特征间冗余.实验结果表明该特征选择方法有效地提高了邮件过滤的性能.  相似文献   

4.
针对传统垃圾邮件过滤问题中采用单一特征选择方法不能够有效提取训练集中全部重要特征或提取结果存在特征冗余的问题,提出一种基于多种特征选择方法融合的垃圾邮件过滤模型SF_FSF(Spam filtering based on feature selection fusion)。SF_FSF方法通过引入信息融合的概念,将特征选择看成一个决策问题,采用基于平均投票法的信息融合模型进行特征选择结果的融合,以提取垃圾邮件数据集中的重要特征,获得优秀的过滤能力。实验结果表明,SF_FSF方法比基于单一特征选择的垃圾邮件过滤方法得到了更好的过滤结果。  相似文献   

5.
基于字符语言模型的垃圾邮件过滤   总被引:2,自引:1,他引:1  
基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。该文先简单综述了当前基于内容的垃圾邮件过滤中采用的各种技术,在此基础上提出将基于字符的语言模型应用于垃圾邮件过滤任务中,并通过实验对比了该方法与Nave Bayes、SVM和基于词的语言模型方法的性能差异,以及不同n值、不同特征选择方式对过滤结果的影响。实验结果表明,基于字符的语言模型实现简单且具有很高的性能,能较好地满足大规模在线邮件系统的需要,具有很高的实用价值。  相似文献   

6.
垃圾邮件自身的特点决定了消极学习型的文本分类算法更加适合于垃圾邮件过滤问题.但是,以k-NN为代表的消极型文本分类算法却存在着运行效率偏低等诸多缺点,不便于实际使用.为此,该文在向量余弦相似性公式的基础上,提出了一种新的"嵌入式特征选择垃圾邮件过滤模型"和基于此模型的消极学习型垃圾邮件过滤算法.与一些经典算法相比,新算法在显著降低运算开销的同时,巧妙地避免了由此而引起的信息丢失问题,因而在性能与效率两个方面都有明显提高,具有非常高的实际价值.  相似文献   

7.
垃圾邮件过滤系统的研究与实现   总被引:4,自引:0,他引:4       下载免费PDF全文
张羿  周建国  晏蒲柳 《计算机工程》2006,32(18):106-108
介绍了各类垃圾邮件过滤技术,分析了已经应用于垃圾邮件内容过滤领域的一些分类算法存在的某些不足,创新地将一种新的分类算法(SECTILE)应用于垃圾邮件的分类过滤中去,并设计了一个多层次垃圾邮件过滤系统。该系统整合了多项垃圾邮件过滤技术(黑名单/白名单技术、基于规则的过滤、基于内容的过滤),实验和分析结果表明,该系统提高了垃圾邮件过滤的效率和准确性。  相似文献   

8.
一种基于神经网络的垃圾邮件过滤方法   总被引:2,自引:0,他引:2  
垃圾邮件问题日益严重,受到研究人员的广泛关注,基于各种技术的垃圾邮件过滤方法应运而生,其中神经网络技术应用广泛.现在主要采用的后向传播(BP)神经网络虽然在垃圾邮件过滤中取得很好的效果,但仍然存在局部极小点、不能适应新样本、学习效率较低等诸多问题.因此,本文将一种有导师、可在线学习的自组织神经网络--预测自适应谐振理论神经网络(ARTMAP),运用于垃圾邮件过滤,提出了一种新的基于ARTMAP的垃圾邮件过滤方法.实验表明,基于ARTMAP的邮件过滤能够对垃圾邮件进行有效的过滤,在保证正确率的同时,更能适应当前垃圾邮件特征不断变化的环境.  相似文献   

9.
为了解决基于服务端的垃圾邮件过滤系统难以满足某一群体邮件过滤的特殊要求,分析了Email邮件协议和邮件格式特征,设计与实现了一种客户端垃圾邮件过滤系统.系统采用黑白名单过滤、邮件特征过滤和贝叶斯分类相结合的三层过滤技术,并通过用户反馈机制降低误报率.实验结果显示,系统可满足用户对邮件过滤的个性需求,提高了垃圾邮件过滤的准确性.  相似文献   

10.
垃圾邮件的内容因人而异,现有的垃圾邮件过滤系统大多采用统一的过滤标准对用户的邮件进行过滤,因而忽略了垃圾邮件的这种个性化特征.针对这一情况提出一种个性化垃圾邮件过滤的计算模型,它事先不需要对模型进行针对性的训练,从对用户日常处理不同类型邮件的行为中分析和挖掘垃圾邮件的个性化特征,然后利用这种个性化特征在对垃圾邮件进行识别的同时不断强化这种个性化特征,以实现逐步提升对垃圾邮件识别率的目的.据此实现了相应的原型系统,通过对此系统的实验验证,该方法在现实环境下对垃圾邮件具有很好的过滤效果.  相似文献   

11.
基于区分类别能力的高性能特征选择方法   总被引:15,自引:0,他引:15  
特征选择在文本分类中起着重要作用.文档频率(document frequency,简称DF)、信息增益(informationgain,简称IG)和互信息(mutualin formation,简称MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差,而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评估均是通过实验验证的方法,即完全是基于经验的方法.特征选择是选择部分最有区分类别能力的特征,为此,给出了两个特征选择函数需满足的基本约束条件,并提出了一种构造高性能特征选择的通用方法.依此方法构造了一个新的特征选择函数KG(knowledge gain).分析发现,IG和KG完全满足该构造方法,在Reuters-21578,OHSUMED和News Group这3个语料集上的实验表明,IG和KG性能最好,在两个语料集上,KG甚至超过了IG.验证了提出的构造高性能特征选择函数方法的有效性,同时也在理论上给出了一个评价高性能特征选择算法的标准.  相似文献   

12.
We present a new method for feature preserving mesh simplification based on feature sensitive (FS) metric. Previous quadric error based approach is extended to a high-dimensional FS space so as to measure the geometric distance together with normal deviation. As the normal direction of a surface point is uniquely determined by the position in Euclidian space, we employ a two-step linear optimization scheme to effciently derive the constrained optimal target point. We demonstrate that our algorithm can prese...  相似文献   

13.
A robust information clustering algorithm   总被引:1,自引:0,他引:1  
Song Q 《Neural computation》2005,17(12):2672-2698
We focus on the scenario of robust information clustering (RIC) based on the minimax optimization of mutual information (MI). The minimization of MI leads to the standard mass-constrained deterministic annealing clustering, which is an empirical risk-minimization algorithm. The maximization of MI works out an upper bound of the empirical risk via the identification of outliers (noisy data points). Furthermore, we estimate the real risk VC-bound and determine an optimal cluster number of the RIC based on the structural risk-minimization principle. One of the main advantages of the minimax optimization of MI is that it is a nonparametric approach, which identifies the outliers through the robust density estimate and forms a simple data clustering algorithm based on the square error of the Euclidean distance.  相似文献   

14.
为提高无线传感器网络(WSN)的节点定位的估计精度,提出基于自由搜索优化的智能估计定位算法。自由搜索是一种新的群集智能算法,应用于函数优化。该算法计算量少、收敛速度高、程序实现简洁、需要调整的参数少。利用智能优化算法将参数估计问题转化为非线性函数的优化问题。仿真实验结果显示,与最小二乘估计定位算法相比,新算法的定位精度有所提高。  相似文献   

15.
In this paper, an alternative type reduction approach based on information combination with crisp interval operations (crisp interval operation type reduction [CIOTR]) is presented to avoid the time‐consuming difficulty in the type reduction procedure for the mainly used interval‐valued membership functions (MFs). Multiinformation is considered to be included in the primary MF of an interval‐valued fuzzy set (FS). Interval operations are utilized to combine the multiinformation. With the integrated information, an interval‐valued FS is reduced to be a simple FS. The proposed type reduction approach (CIOTR) is also applied to the design of a hybrid interval‐valued fuzzy sliding controller (HFSCIV) for a double‐pendulum‐and‐cart system. The simulation results are included to show the effectiveness of the designed HFSCsIV using the CIOTR.  相似文献   

16.
In this paper, we present an efficient approach for supporting fast-scanning (FS) operations in MPEG-based video-on-demand (VOD) systems. This approach is based on storing multiple, differently encoded versions of the same movie at the server. A normal version is used for normal playback, while several scan versions are used for FS. Each scan version supports forward and backward FS at a given speedup. The server responds to an FS request by switching from the normal version to an appropriate scan version. Scanning versions are produced by encoding a sample of the raw frames using the same GOP pattern of the normal version. When a scanning version is decoded and played back at the normal frame rate, it gives a perceptual motion speedup. By being able to control the traffic envelopes of the scan versions, our approach can be integrated into a previously proposed framework for distributing archived, MPEG-coded video streams. FS operations are supported using no or little extra network bandwidth beyond what is already allocated for normal playback. Mechanisms for controlling the traffic envelopes of the scan versions are presented. The actions taken by the server and the client's decoder in response to various types of interactive requests are described in detail. The latency incurred in implementing various interactive requests is shown to be within an acceptable range. Striping and disk-scheduling strategies for storing various versions at the server are presented. Issues related to the implementation of our approach are discussed.  相似文献   

17.
基于最大互信息的多模医学图像配准已成为医学图像处理领域的热点.低阶互信息仅关注灰度的统计特性,忽略了空间信息,因此采用图像梯度向量流的空间信息与最大互信息组合的方法来实现医学图像配准.实验表明,该方法可以大大提高配准速度和精度,降低误配准率.  相似文献   

18.
基于鲁棒自适应RBF网络的聚丙烯熔融指数预报   总被引:8,自引:0,他引:8  
曹劲  王桂增 《控制与决策》1999,14(4):339-343
讨论径向基函数网络的网络结构和基本算法,在此基础上提出了鲁棒自适应RBF网络方法。仿真结果表明,该方法用于聚珍烯熔融指数的预报取得了较好的效果。  相似文献   

19.
基于脑电的脑机交互能帮助肢体运动障碍患者进行日常生活和康复训练,但是,由于脑电信号存在信噪比较低、个体差异性大等问题,导致脑电特征的提取与分类还需要进一步提高准确性和效率.因此,在减少脑电采集通道数目、增加分类数目的前提下,基于卷积神经网络对运动想象中的脑电信号进行分类.首先,基于已有方法进行探索实验,建立由3层卷积层、3层池化层和2层全连接层构成的卷积神经网络;然后针对想象左手、右手、脚的运动和静息态设计与开展了实验,获取了相关脑电数据;之后,利用脑电数据训练出基于卷积神经网络的分类模型,测试结果表明,该模型平均分类识别率达到了82.81%,且高于已有的相关分类算法;最后,将已建立的分类模型应用于运动想象信号的在线分类,设计与开发了脑机交互应用原型系统,驱动人-机器人之间的实时交互,帮助用户利用运动想象控制仿人机器人的抬手、前进等运动状态.进一步的测试结果表明,机器人对用户控制命令的平均识别率达到了80.31%,从而验证了所提方法可以对运动想象脑电数据进行较为精确的实时分类,可以促进脑机接口技术在人-机器人交互中的应用.  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号