首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
邮件分类是当前研究的一个热点问题,而如何进行邮件特征选择,是邮件分类中的重要问题。在介绍几种常用的邮件分类的特征选择算法的同时,提出了将非搜索型算法FCBF与搜索型算法SFS结合的特征选择方法。实验验证了该方法的有效性和可行性,能够有效提高分类器的准确率。  相似文献   

2.
电子邮件作为互联网技术发展的产物,在给全球网民带来通讯便利的同时,正不可避免地遭遇有悖初衷的运用。最为突出的是随之产生的垃圾邮件像瘟疫一样蔓延,污染网络环境,占用大量传输、存储和运算资源,影响了网络的正常运行。垃圾邮件问题日益严重,受到研究人员的广泛关注。基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。由于常用的特征字串匹配技术对垃圾邮件件的查准率已经不能满足日益提高的过滤系统用户的产品需求,随后引入邻近类别分类的方法,利用基于贝叶斯算法的电子邮件过滤系统,对色情垃圾邮件样本进行分析,可明显提高对垃圾邮件的查准率。  相似文献   

3.
随着邮件分类技术的不断发展,为了对邮件进行更加有效的组织和管理,需要对不断变化的邮件进行动态特征提取,根据其动态特征对邮件进行分类。从邮件的动态特征方面入手,通过编写邮件客户端程序,利用中科院的ICTCLAS分词工具实现中文邮件的准确分词,利用改进的TF-IDF算法对邮件的特征权重进行计算,并利用WEKA挖掘工具进行结果的仿真实验。实验结果表明,利用邮件的动态特征来对邮件进行分类是切实可行的,且在一定程度上能够对邮件进行合理有效的分类。  相似文献   

4.
特征选择是数据挖掘和机器学习等领域内重要的预处理步骤,近年来得到了广泛的关注。文本数据的高维性往往会影响分类等数据挖掘任务的效率,因此特征选择常被作为文本分类过程中的重要组成部分,以达到降维的目的。随着分类技术的快速发展,类别的日益细化,文本的多类分类问题为特征选择方法提出了更多的挑战。本文面向文本多类分类的应用背景,阐述了目前特征选择方法所面临的主要挑战,给出了多分类特征选择方法的主要种类。本文沿着相关研究的发展路线,由易至难,由浅入深,通过对目前多分类特征选择算法的应用情况进行总结,并进行综述评论,最后对全文进行了概括,提出了未来可能的研究方向。  相似文献   

5.
文章主要进行了接收端的垃圾邮件处理技术的对比研究,包括预处理、特征选择和分类3大步骤。其中特征选择技术包括文档频率(DF)、信息增益(IG)、优势率(ODD)等方法。文章详细介绍了其中基于粗糙集理论的特征选择方法--信息增益(knowledge gain),并用实验验证了该方法在正确率等指标中的突出表现。主流分类器算法包括k近邻、贝叶斯、SVM等,其中详细展示了线性分类器在垃圾邮件分类算法实验中的突出表现。  相似文献   

6.
视频对象自动分类是智能视频监控的重要技术基础之一.为了提高分类精度,必须选择合适的对象特征.目前常用的视频对象分类方法都缺乏对于分类特征重要性的评价机制.提出一种视频对象分类特征评价与选择方法,该方法基于Adaboost算法的思想,通过对特征贡献进行定量评价实现特征选择.实验将视频对象区分为"单个行人"、"人群"、"车辆"和"骑车的人"四种类别,证明了该方法的合理性和有效性.  相似文献   

7.
董梅  胡学钢 《微机发展》2007,17(7):117-119
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

8.
基于多特征选择的中文文本分类   总被引:1,自引:0,他引:1  
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

9.
邮件过滤中特征选择算法的研究及改进   总被引:1,自引:0,他引:1  
对基于内容的垃圾邮件过滤技术尤其是特征选择算法进行了研究.在此基础上,对其中的互信息算法进行了分析,并将其与邮件过滤的特点结合起来进行,在频度、集中度及分散度三个指标上进行改进,在原互信息算法已考虑分散度的基础上,引入词频来表征频度,以类别贡献比来衡量特征对分类的贡献,即表征集中度,并给出了改进后的互信息计算公式及算法.最后使用真实邮件训练集进行了邮件分类的实验,实验结果证明对互信息算法的改进能有效提高邮件分类性能.  相似文献   

10.
以高脂血症文献分类为背景,通过对传统特征选择算法的研究,结合特征出现概率、特征与类别的相关度,提出一种基于二类信息差值的特征选择方法。使用该算法及k近邻距离分类法在高脂血症文献数据集上进行分类,实验显示该算法优于文档频率和信息增益,可提高文本分类的查准率。  相似文献   

11.
中文特征词的选取是中文信息预处理内容之一,对文档分类有重要影响。中文分词处理后,采用特征词构建的向量模型表示文档时,导致特征词的稀疏性和高维性,从而影响文档分类的性能和精度。在分析、总结多种经典文本特征选取方法基础上,以文档频为主,实现文档集中的特征词频及其分布为修正的特征词选取方法(DC)。采用宏F值和微F值为评价指标,通过实验对比证明,该方法的特征选取效果好于经典文本特征选取方法。  相似文献   

12.
基于差分贡献的垃圾邮件过滤特征选择方法   总被引:7,自引:0,他引:7       下载免费PDF全文
垃圾邮件过滤本质上是一个二类文本分类问题,特征选择是其一个重要的组成部分。针对垃圾邮件过滤问题的特殊性,基于“差分贡献”的思想对文档频数和互信息量这两种传统的特征选择方法进行了改进,设计了新的垃圾邮件过滤特征选择方法。实验结果表明,基于差分贡献的特征选择方法使得垃圾邮件过滤的精度得到了有效的提高。  相似文献   

13.
中文Web文本的特征获取与分类   总被引:16,自引:0,他引:16  
许建潮  胡明 《计算机工程》2005,31(8):24-25,39
已有许多方法用于英文网页的特征抽取,相对而言适合于中文网页的方法还不多。该文设计了一个综合考虑位置,频率和词长3个因素的中文Web文本词权重的计算公式,提出了一种用变长度染色体遗传算法提取Web文本特征的方法。实验表明该方法在降低特征矢量数方面是有效的。  相似文献   

14.
基于多级属性集的垃圾邮件过滤技术   总被引:5,自引:0,他引:5  
针对目前常用的垃圾邮件过滤技术普遍存在误报和漏报与分类过滤效率之间的矛盾问题,提出了一种改进的垃圾邮件过滤算法。在对这种新算法进行仿真测试后发现,新算法不仅有效地降低了漏报率和误报率,同时也减少了分类时间,为改进现有垃圾邮件过滤系统提供了一条新的解决方法和途径。  相似文献   

15.
Arrhythmia has been classified using a variety of methods. Because of the dynamic nature of electrocardiogram (ECG) data, traditional handcrafted approaches are difficult to execute, making the machine learning (ML) solutions more appealing. Patients with cardiac arrhythmias can benefit from competent monitoring to save their lives. Cardiac arrhythmia classification and prediction have greatly improved in recent years. Arrhythmias are a category of conditions in which the heart's electrical activity is abnormally rapid or sluggish. Every year, it is one of the main reasons of mortality for both men and women, worldwide. For the classification of arrhythmias, this work proposes a novel technique based on optimized feature selection and optimized K-nearest neighbors (KNN) classifier. The proposed method makes advantage of the UCI repository, which has a 279-attribute high-dimensional cardiac arrhythmia dataset. The proposed approach is based on dividing cardiac arrhythmia patients into 16 groups based on the electrocardiography dataset’s features. The purpose is to design an efficient intelligent system employing the dipper throated optimization method to categorize cardiac arrhythmia patients. This method of comprehensive arrhythmia classification outperforms earlier methods presented in the literature. The achieved classification accuracy using the proposed approach is 99.8%.  相似文献   

16.
Multi-label learning deals with data associated with a set of labels simultaneously. Dimensionality reduction is an important but challenging task in multi-label learning. Feature selection is an efficient technique for dimensionality reduction to search an optimal feature subset preserving the most relevant information. In this paper, we propose an effective feature evaluation criterion for multi-label feature selection, called neighborhood relationship preserving score. This criterion is inspired by similarity preservation, which is widely used in single-label feature selection. It evaluates each feature subset by measuring its capability in preserving neighborhood relationship among samples. Unlike similarity preservation, we address the order of sample similarities which can well express the neighborhood relationship among samples, not just the pairwise sample similarity. With this criterion, we also design one ranking algorithm and one greedy algorithm for feature selection problem. The proposed algorithms are validated in six publicly available data sets from machine learning repository. Experimental results demonstrate their superiorities over the compared state-of-the-art methods.   相似文献   

17.
Web网页识别中的特征选择问题研究   总被引:26,自引:0,他引:26  
对Web网页识别中有关特征选择的两个重要问题进行了深入的探讨,提出了一种新的描述特征选择方法,并将其与3种已有的描述特征方法进行实验比较,证实其有效性,此外还对5种在文本归类中,具有代表性的识别特征选择方法在Web网页识别中的实际应用效果进行了评估比较,并发现信息增益和统计方法,选择识别特征效果最佳。  相似文献   

18.
电子邮件过滤检测系统的设计与实现   总被引:3,自引:1,他引:3  
本文设计实现了一个具有基于SMTP过滤器的、基于规则的、基于附件扫描的、可清除恶意脚本的多重过滤功能的邮件过滤检测系统.  相似文献   

19.
二值文本分类中基于Bayes推理的特征选择方法   总被引:7,自引:0,他引:7  
针对二值文本分类算法中的特征选择问题,本文提出了基于贝叶斯推理的评估函数算法来替代常用的、以IG或MI为评估函数的算法;同时,提出了以评估函数值的累计贡献率表示置信度,并以此确定特征选择维度的可量化的方法.对比实验显示,本文提出的新方法具有简便易行、高效实用的优点,此算法不仅对文本分类问题,对其它各类二值分类问题中的特征选择方法研究也都具有很好的参考、借鉴价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号