首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
一个基于决策粗糙集理论的信息过滤模型   总被引:3,自引:0,他引:3       下载免费PDF全文
介绍了决策粗糙集理论,提出了一个基于决策粗糙集理论的通用信息过滤模型,并通过对电子邮件进行过滤,与传统的基于文本内容的信息过滤方法——朴素贝叶斯方法进行了比较,比较结果证明该文提出的基于决策粗糙集理论的信息过滤模型可以降低误判率,有较高的正确率。  相似文献   

2.
电子邮件过滤是网络信息安全研究的热点。RoughSet理论是一种处理含糊和不精确性问题的一种新型数学工具,得到了广泛应用。文章结合RoughSet理论的数据分析方法针对实时个人用户电子邮件过滤系统进行了研究。实验结果表明,该方法是有效的。  相似文献   

3.
基于粗糙集与贝叶斯决策的不良网页过滤研究   总被引:1,自引:0,他引:1  
不良网页过滤是一种两类网页分类问题。提出了一种基于粗糙集与贝叶斯决策相结合的不良网页分类过滤方法,首先利用粗糙集理论的区分矩阵和区分函数得到网页分类决策的属性约简;然后通过贝叶斯决策理论对网页进行分类与过滤决策。仿真实验表明,该方法在不良网页分类过滤系统中开销小,过滤准确度高,因而在快速过滤不良网页的应用中具有工程应用价值。  相似文献   

4.
粗糙集理论是一种适用于不完整和不确定系统的知识发现的数学工具.本文提出了一种利用粗糙集理论生成规则的Web信息过滤技术,通过对其中相应算法的改进并进行测试,发现将该方法应用到Web信息过滤中是行之有效的,该方法生成的规则少,提高了过滤分析的实时性和实用性.  相似文献   

5.
粗糙集理论和DT_SVM在Web信息过滤中的应用   总被引:1,自引:0,他引:1       下载免费PDF全文
衣治安  刘杨 《计算机工程》2008,34(15):208-210
针对Web信息过滤问题,提出一种将粗糙集理论和决策树SVM(DT_SVM)相结合进行数据分类、过滤的新方法。该方法运用改进的启发式相对属性约简算法消除冗余、降低样本空间维数,通过聚类和DT_SVM相结合来训练SVM,将多分类问题转化为二值分类问题,提高了训练速度及过滤精度。实验表明,该算法得到了较高的查全率、查准率,体现了将粗糙集理论与DT_SVM算法结合的优越性。  相似文献   

6.
针对信息过滤中存在的失配和过载问题,结合粗糙集和模式挖掘理论,提出了一种基于两级模型的信息过滤系统.第一级采用基于粗糙集的主题过滤方法,利用粗糙集的关联规则理论对用户需求进行建模,滤除与用户需求不相符的信息;第二级采用SPMining算法对用户需求模型的词序列进行剪枝,并采用PTM2算法重新计算剪枝后词的支持度,最后采用加权排序的方法对文档进行排序.  相似文献   

7.
粗糙集理论及进展的研究   总被引:4,自引:1,他引:4  
纪滨 《微机发展》2007,17(3):69-72
粗糙集理论是一种较新的软计算方法,是分析和处理不完备信息的一种有效工具。目前已在人工智能、知识与数据发现、模式识别与分类、故障检测等方面得到了广泛应用。文中描述了粗糙集的基本理论,分析了粗糙集理论研究的最新进展,指出了粗糙集理论研究中存在的问题,并对粗糙集理论研究的发展趋势进行了展望。  相似文献   

8.
粗糙集理论是一种较新的软计算方法,是分析和处理不完备信息的一种有效工具。目前已在人工智能、知识与数据发现、模式识别与分类、故障检测等方面得到了广泛应用。文中描述了粗糙集的基本理论,分析了粗糙集理论研究的最新进展,指出了粗糙集理论研究中存在的问题,并对粗糙集理论研究的发展趋势进行了展望。  相似文献   

9.
粗糙集理论在故障诊断专家系统中的应用   总被引:6,自引:3,他引:6  
针对专家系统中知识获取的瓶颈问题,引入了一种基于粗糙集理论的专家系统模型。该模型在知识入库前对其进行过滤,并利用粗糙集理论的约简算法消除知识库的冗余,从而实现了对知识库结构和性能的有效维护及完善。  相似文献   

10.
电子邮件是互联网的重要应用之一,邮件分类问题已成为当今研究的热点。本文基于粗糙集理论,利用0-1贝努利数据提出双向邮件分类模型,在保证当前分类正确率的前提 下,约简了邮件分类所需的文本词频信息,较好地提高了分类效率,推进了粗糙集理论在邮件分类中的应用。  相似文献   

11.
目前各种基于规则的分类方法在电子邮件过滤中起到了良好的效果,在邮件过滤器的训练中,训练集中会存在部分邮件具有邮件类别模糊的现象,如何将训练集中的此类类别界限模糊的邮件提取出来将会对邮件的分类效果有明显提高的作用。提出一种基于聚类的过滤方法,根据界限模糊邮件数据之间的共性特征,对邮件训练集进行聚类。实验表明,与单纯的进行基于规则的分类算法相比,这种方法在各项评价指标上具有优越性。  相似文献   

12.
Nowadays, spam represents an extensive subset of the information delivered through Internet involving all unsolicited and disturbing communications received while using different services including e-mail, weblogs and forums. In this context, this paper reviews and brings together previous approaches and novel alternatives for applying rough set (RS) theory to the spam filtering domain by defining three different rule execution schemes: MFD (most frequent decision), LNO (largest number of objects) and LTS (largest total strength). With the goal of correctly assessing the suitability of the proposed algorithms, we specifically address and analyse significant questions for appropriate model validation like corpus selection, preprocessing and representational issues, as well as different specific benchmarking measures. From the experiments carried out using several execution schemes for selecting appropriate decision rules generated by rough sets, we conclude that the proposed algorithms can outperform other well-known anti-spam filtering techniques such as support vector machines (SVM), Adaboost and different types of Bayes classifiers.  相似文献   

13.
基于内容的邮件过滤本质是二值文本分类问题。特征选择在分类之前约简特征空间以减少分类器在计算和存储上的开销,同时过滤部分噪声以提高分类的准确性,是影响邮件过滤准确性和时效性的重要因素。但各特征选择算法在同一评价环境中性能不同,且对分类器和数据集分布特征具有依赖性。结合邮件过滤自身特点,从分类器适应性、数据集依赖性及时间复杂度三个方面评价与分析各特征选择算法在邮件过滤领域的性能。实验结果表明,优势率和文档频数用于邮件过滤时垃圾邮件识别的准确率较高,运算时间较少。  相似文献   

14.
《Information Sciences》2007,177(10):2167-2187
In this paper we study supervised and semi-supervised classification of e-mails. We consider two tasks: filing e-mails into folders and spam e-mail filtering. Firstly, in a supervised learning setting, we investigate the use of random forest for automatic e-mail filing into folders and spam e-mail filtering. We show that random forest is a good choice for these tasks as it runs fast on large and high dimensional databases, is easy to tune and is highly accurate, outperforming popular algorithms such as decision trees, support vector machines and naïve Bayes. We introduce a new accurate feature selector with linear time complexity. Secondly, we examine the applicability of the semi-supervised co-training paradigm for spam e-mail filtering by employing random forests, support vector machines, decision tree and naïve Bayes as base classifiers. The study shows that a classifier trained on a small set of labelled examples can be successfully boosted using unlabelled examples to accuracy rate of only 5% lower than a classifier trained on all labelled examples. We investigate the performance of co-training with one natural feature split and show that in the domain of spam e-mail filtering it can be as competitive as co-training with two natural feature splits.  相似文献   

15.
《Knowledge》2007,20(3):249-254
The increasing volumes of unsolicited bulk e-mail (also known as spam) are bringing more annoyance for most Internet users. Using a classifier based on a specific machine-learning technique to automatically filter out spam e-mail has drawn many researchers’ attention. This paper is a comparative study the performance of three commonly used machine learning methods in spam filtering. On the other hand, we try to integrate two spam filtering methods to obtain better performance. A set of systematic experiments has been conducted with these methods which are applied to different parts of an e-mail. Experiments show that using the header only can achieve satisfactory performance, and the idea of integrating disparate methods is a promising way to fight spam.  相似文献   

16.
一种基于Rough集理论的数据过滤方法   总被引:11,自引:1,他引:10  
Routh集理论是一种处理不确定模糊知识的重要工具,在对Rough集理论进行深入研究的基础上,提出了一种基于Rough集理论的这滤算法。该处 工硒思想是基于P-确定的等价类的合并,算法直观,计算简便,理论和实验表明,该算法能够减低信息系统中信息的粒度,在保持规则近似质量不变的前提下,有效地提高规则的统计意义和预测强度。  相似文献   

17.
根据电子邮件中正常邮件和垃圾邮件的概率特性,将在信号处理领域应用广泛的最大熵模型引入到邮件过滤中,并结合邮件的半结构化特性,形成邮件特征向量,给出传统特征函数的改进定义.在此基础上,构造出基于最大熵模型的邮件过滤方法的基本框架.实验结果表明,这种过滤方法表现出了良好的性能.  相似文献   

18.
由于数字图像信息的复杂性和图像像素之间较强的相关性,在进行处理的过程中可能出现不确定性和不精确性的问题.粗集理论作为一种新的软计算方法,可以用作处理图像信息的含糊和不确定性问题的数学工具.本文将粗集理论应用到图像滤波中,在研究了传统图像滤波算法不能很好地解决图像细节丢失问题的基础上引入了图像色度比的概念,提
出了基于色度比的图像噪声和边缘点的粗集判断标准,设计了一种基于粗集的新型滤波器.实验结果表明,该滤波器可以有效地去除图像中的噪声,并能较好地保持图像的边缘细节信息.  相似文献   

19.
王波  高克宁  张斌 《计算机工程与应用》2005,41(12):175-176,179
为了从大型数据库中获取有用的知识,采用了roughset理论。Roughset理论是一种研究不精确和不确定性知识的数学工具。利用粗糙集理论中属性核与不可分辨关系,提出了一种基于粗集的属性约简算法和消除冗余属性的数据过滤方法,并通过一个完整的实例验证了算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号