首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
一种基于CHI值特征选取的粗糙集文本分类规则抽取方法   总被引:6,自引:1,他引:6  
王明春  王正欧  张楷  郝玺龙 《计算机应用》2005,25(5):1026-1028,1033
结合文本分类规则抽取的特点,给出了近似规则的定义。该方法首先利用CHI值进行特征选取并为下一步特征选取提供特征重要性信息,然后使用粗糙集对离散决策表继续进行特征选取,最后用粗糙集抽取出精确规则或近似规则。该方法将CHI值特征选取和粗糙集理论充分结合,避免了用粗糙集对大规模决策表进行特征约简,同时避免了决策表的离散化。该方法提高了文本规则抽取的效率,并使其更趋实用化。实验结果表明了这种方法的有效性和实用性。  相似文献   

2.
基于粗糙集的文本分类方法研究   总被引:8,自引:3,他引:8  
本文旨在利用粗糙集优越的约简理论对文本进行分类。主要完成了以下几个方面的任务:对文本进行了预处理;改进了Okapi 权重计算公式,并对权值进行了离散化;实现了属性约简和规则抽取,首先利用区分矩阵对特征向量维数进行了初次压缩,然后通过相对约简计算再次压缩了特征向量维数,并生成了决策规则;采取了规则合成的策略,生成最终的决策规则;设计了一种文本与规则的匹配算法,使匹配过程尽可能简单有序。试验结果表明该方法是行之有效的。  相似文献   

3.
高飞  周学广  孙艳 《计算机工程》2012,38(10):63-66
针对话题分类文本训练集少、主题相似度大的特点,提出一种基于关联规则和粗糙集的话题特征提取方法。在向量空间模型的基础上,采用挖掘关联规则的方式生成规则集与文本主体,通过调节事务主体的最小支持度与最小置信度查找不同颗粒层次的话题,利用粗糙集理论对词语特征与关联特征进行属性约简。实验结果表明,该方法能提取文本集中描述的评论主题,具有较高的话题分类准确率。  相似文献   

4.
粗糙集分类算法中的近似决策规则和规则匹配方法   总被引:1,自引:0,他引:1  
粗糙集分类算法在应用标准决策规则进行新对象分类时,经常碰到决策规则与新对象不完全匹配的情况。因此,近似决策规则和部分匹配方法常用于提高决策规则与新对象匹配的可能性。本文在概述和比较两种近似决策规则生成算法的基础上,以一个文本分类系统为例,提出了一种综合的、更有效的近似决策规则生成算法。文章还介绍了几种通用的规则匹配方法,提出了一系列实用的完全匹配和部分匹配公式。实验表明,新提出的近似决策规则生成算法和规则匹配公式能够有效地提高决策规则与新对象的匹配可能性与准确性。  相似文献   

5.
基于RFM和粗糙集的客户分类规则提取   总被引:1,自引:0,他引:1  
通过分析现有的分类规则提取方法,给出了一种提取客户分类规则的方法,该方法对客户的RFM属性进行K-均值聚类以确定客户价值,利用粗糙集完成规则提取,为客户分类提供了一种新的思路.通过实例验证了这种方法能够有效地对客户进行细分、提取分类规则,并提高了分类准确性.  相似文献   

6.
随着计算机技术的发展,急剧产生海量的数据.如何从这些数据中提取有用的信息是一个重要的问题.一种新的数据分析方法--粗糙集理论被提出.该理论在分类的意义下定义了模糊性和不确定性的概念,是一种处理不确定和不精确问题的新型数学工具.文中首先对近年兴起的粗糙集的基本理论进行了讨论,在此基础上运用粗糙集理论对从数据库中规则的挖掘方法进行了研究.并通过一个实例详细地说明了具体挖掘过程,该实例说明了基于粗糙集进行规则的挖掘是较简单的.  相似文献   

7.
规则提取是粗糙集理论的一个核心内容。在泛系理论的基础上,提出了在粗糙集理论中规则提取的新方法一利用图的匹配来提取规则。  相似文献   

8.
基于神经网络和粗糙集规则的提取方法   总被引:1,自引:0,他引:1       下载免费PDF全文
在利用粗糙集对连续性数据进行分类规则挖掘时,需要对数据进行离散化处理,但是离散结果往往会破坏原有数据的隐含信息,提取的分类规则质量难以保证。该文设计了一种基于自组织人工神经网络与粗糙集理论的分类规则提取方法,利用神经网络自动分类的功能,对离散前后的数据进行分类,比较两次分类结果是否一致,当达到一致性结果后,再利用粗糙集理论对数据约简,进行规则提取,有效地解决了原始数据信息丢失的问题,通过实例证明了该方法的合理性。  相似文献   

9.
粗糙集作为一种智能工具可以用来挖掘数据依赖,数据约简近似集分类以及从数据库中提取规则.本文将粗糙集方法应用在空气质量评估中,从空气数据库中提取其规则从而对数据进行有效的分析.研究表明,在知识推理和建立专家系统方面,粗糙集理论是一种非常有效的工具.  相似文献   

10.
介绍中文文本分类的流程及相关技术。在分析传统的文本特征选择不足的基础上,提出了基于粗糙集与集成学习结合的文本分类方法,通过粗糙集进行文本的特征选择,采用一种集成学习算法AdaBoost.M1来提高弱分类器的分类性能,对中文文本进行分类。实验证明,这种算法分类结果的F1值比C4.5、kNN分类器都高,具有更加优良的分类性能。  相似文献   

11.
An important issue in text mining is how to make use of multiple pieces knowledge discovered to improve future decisions. In this paper, we propose a new approach to combining multiple sets of rules for text categorization using Dempster’s rule of combination. We develop a boosting-like technique for generating multiple sets of rules based on rough set theory and model classification decisions from multiple sets of rules as pieces of evidence which can be combined by Dempster’s rule of combination. We apply these methods to 10 of the 20-newsgroups—a benchmark data collection (Baker and McCallum 1998), individually and in combination. Our experimental results show that the performance of the best combination of the multiple sets of rules on the 10 groups of the benchmark data is statistically significant and better than that of the best single set of rules. The comparative analysis between the Dempster–Shafer and the majority voting (MV) methods along with an overfitting study confirm the advantage and the robustness of our approach.  相似文献   

12.
基于模糊决策树的文本分类规则抽取   总被引:8,自引:0,他引:8  
王煜  王正欧 《计算机应用》2005,25(7):1634-1637
提出一种合并分枝的模糊决策树文本分类方法对相似文本类进行分类,并可抽取出分类精度较高的模糊分类规则。首先研究改进了的χ2统计量,并根据改进的χ2统计量对文本的特征词条进行聚合,有效地降低了文本向量空间的维数。然后使用一种合并分枝的模糊决策树进行分类,大大减少了抽取的规则数量。从而既保证了决策树分类的精度和速度,又可抽取出可理解的模糊分类规则。  相似文献   

13.
介绍了粗糙集理论的特征选择在客户关系管理中的应用.分析了以前特征选择方法中由于特征数目过多而造成分类时间和精度不高的缺点,提出了一种基于粗糙集的特征选择方法,其特点是以特征在分类中的重要性对特征进行选择.对客户关系管理进行了研究,为解决客户关系管理问题提出了一个新的方法,基于粗糙集的特征选择方法与传统的特征选择方法相比也能达到降维的目的.最后实验结果表明该算法是可行的.  相似文献   

14.
借鉴已有的特征选取方法和粗糙集相关理论,本文提出了一种改进的基于粗糙集理论的特征选择方法,其主要思想是通过构造粒度函数将其应用于特征在分类中的重要性度量和约简,最后通过实验验证了该方法是有效的,并能够显著降低文本特征维数,提高分类的效率和精度。  相似文献   

15.
规则加权的文本关联分类   总被引:2,自引:1,他引:2  
近年来,基于关联规则的文本分类方法受到普遍关注。虽然在一般情况下这种方法可获得较好的分类效果。但当样本特征词分布明显不均时,分类规则在各类别的分布也出现不均,从而导致分类准确率下降。本文设计和实现的基于规则权重调整的关联规则文本分类算法可有效地解决这一问题。该算法根据误分类训练样本的数量定义规则强度。对强规则通过乘以小于1 的调整因子降低其权重,而弱规则乘以大于1的调整因子提高其权重。实验结果表明经过规则权重的调整,分类质量显著提高。  相似文献   

16.
随着Web信息容量迅速膨胀,对Web文本分类已经是目前研究的热点.传统的Web文本分类对网页的预处理基本上没有考虑网页中的大量噪音,因此对分类结果有一定的影响;另一方面,文本的向量空间模型维数过高,对分类效果也存在很大的影响.提出一种基于粗糙集理论的Web文本分类方法,首先对网页进行去噪,然后对向量空间模型进行属性约简,之后构造分类器,实验表明,此方法不仅降低了维数,还提高了分类结果.  相似文献   

17.
决策表的一种知识约简与规则获取方法   总被引:1,自引:0,他引:1  
孙胜 《微机发展》2006,16(9):35-37
粗糙集理论是一种新型的数据挖掘和决策分析方法,利用粗糙集理论进行决策表的知识约简与决策规则挖掘已经成为研究热点。文中介绍了粗糙集的基本理论,在此基础上运用该理论对从决策表中获取最小规则进行了研究,提出了决策表约简的启发式方法,并通过一个具体实例详细说明了决策规则获取过程,实例分析表明了其有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号