共查询到19条相似文献,搜索用时 62 毫秒
1.
邮件分类是当前研究的一个热点问题,而如何进行邮件特征选择,是邮件分类中的重要问题。在介绍几种常用的邮件分类的特征选择算法的同时,提出了将非搜索型算法FCBF与搜索型算法SFS结合的特征选择方法。实验验证了该方法的有效性和可行性,能够有效提高分类器的准确率。 相似文献
2.
电子邮件作为互联网技术发展的产物,在给全球网民带来通讯便利的同时,正不可避免地遭遇有悖初衷的运用。最为突出的是随之产生的垃圾邮件像瘟疫一样蔓延,污染网络环境,占用大量传输、存储和运算资源,影响了网络的正常运行。垃圾邮件问题日益严重,受到研究人员的广泛关注。基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。由于常用的特征字串匹配技术对垃圾邮件件的查准率已经不能满足日益提高的过滤系统用户的产品需求,随后引入邻近类别分类的方法,利用基于贝叶斯算法的电子邮件过滤系统,对色情垃圾邮件样本进行分析,可明显提高对垃圾邮件的查准率。 相似文献
3.
4.
特征选择是数据挖掘和机器学习等领域内重要的预处理步骤,近年来得到了广泛的关注。文本数据的高维性往往会影响分类等数据挖掘任务的效率,因此特征选择常被作为文本分类过程中的重要组成部分,以达到降维的目的。随着分类技术的快速发展,类别的日益细化,文本的多类分类问题为特征选择方法提出了更多的挑战。本文面向文本多类分类的应用背景,阐述了目前特征选择方法所面临的主要挑战,给出了多分类特征选择方法的主要种类。本文沿着相关研究的发展路线,由易至难,由浅入深,通过对目前多分类特征选择算法的应用情况进行总结,并进行综述评论,最后对全文进行了概括,提出了未来可能的研究方向。 相似文献
5.
文章主要进行了接收端的垃圾邮件处理技术的对比研究,包括预处理、特征选择和分类3大步骤。其中特征选择技术包括文档频率(DF)、信息增益(IG)、优势率(ODD)等方法。文章详细介绍了其中基于粗糙集理论的特征选择方法--信息增益(knowledge gain),并用实验验证了该方法在正确率等指标中的突出表现。主流分类器算法包括k近邻、贝叶斯、SVM等,其中详细展示了线性分类器在垃圾邮件分类算法实验中的突出表现。 相似文献
6.
视频对象自动分类是智能视频监控的重要技术基础之一.为了提高分类精度,必须选择合适的对象特征.目前常用的视频对象分类方法都缺乏对于分类特征重要性的评价机制.提出一种视频对象分类特征评价与选择方法,该方法基于Adaboost算法的思想,通过对特征贡献进行定量评价实现特征选择.实验将视频对象区分为"单个行人"、"人群"、"车辆"和"骑车的人"四种类别,证明了该方法的合理性和有效性. 相似文献
7.
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。 相似文献
8.
基于多特征选择的中文文本分类 总被引:1,自引:0,他引:1
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。 相似文献
9.
10.
以高脂血症文献分类为背景,通过对传统特征选择算法的研究,结合特征出现概率、特征与类别的相关度,提出一种基于二类信息差值的特征选择方法。使用该算法及k近邻距离分类法在高脂血症文献数据集上进行分类,实验显示该算法优于文档频率和信息增益,可提高文本分类的查准率。 相似文献
11.
12.
13.
中文Web文本的特征获取与分类 总被引:16,自引:0,他引:16
已有许多方法用于英文网页的特征抽取,相对而言适合于中文网页的方法还不多。该文设计了一个综合考虑位置,频率和词长3个因素的中文Web文本词权重的计算公式,提出了一种用变长度染色体遗传算法提取Web文本特征的方法。实验表明该方法在降低特征矢量数方面是有效的。 相似文献
14.
15.
Doaa Sami Khafaga Amel Ali Alhussan Abdelaziz A. Abdelhamid Abdelhameed Ibrahim Mohamed Saber El-Sayed M. El-kenawy 《计算机系统科学与工程》2023,45(2):1469-1482
Arrhythmia has been classified using a variety of methods. Because of the dynamic nature of electrocardiogram (ECG) data, traditional handcrafted approaches are difficult to execute, making the machine learning (ML) solutions more appealing. Patients with cardiac arrhythmias can benefit from competent monitoring to save their lives. Cardiac arrhythmia classification and prediction have greatly improved in recent years. Arrhythmias are a category of conditions in which the heart's electrical activity is abnormally rapid or sluggish. Every year, it is one of the main reasons of mortality for both men and women, worldwide. For the classification of arrhythmias, this work proposes a novel technique based on optimized feature selection and optimized K-nearest neighbors (KNN) classifier. The proposed method makes advantage of the UCI repository, which has a 279-attribute high-dimensional cardiac arrhythmia dataset. The proposed approach is based on dividing cardiac arrhythmia patients into 16 groups based on the electrocardiography dataset’s features. The purpose is to design an efficient intelligent system employing the dipper throated optimization method to categorize cardiac arrhythmia patients. This method of comprehensive arrhythmia classification outperforms earlier methods presented in the literature. The achieved classification accuracy using the proposed approach is 99.8%. 相似文献
16.
Multi-label learning deals with data associated with a set of labels simultaneously. Dimensionality reduction is an important but challenging task in multi-label learning. Feature selection is an efficient technique for dimensionality reduction to search an optimal feature subset preserving the most relevant information. In this paper, we propose an effective feature evaluation criterion for multi-label feature selection, called neighborhood relationship preserving score. This criterion is inspired by similarity preservation, which is widely used in single-label feature selection. It evaluates each feature subset by measuring its capability in preserving neighborhood relationship among samples. Unlike similarity preservation, we address the order of sample similarities which can well express the neighborhood relationship among samples, not just the pairwise sample similarity. With this criterion, we also design one ranking algorithm and one greedy algorithm for feature selection problem. The proposed algorithms are validated in six publicly available data sets from machine learning repository. Experimental results demonstrate their superiorities over the compared state-of-the-art methods. 相似文献
17.
18.