共查询到17条相似文献,搜索用时 187 毫秒
1.
一种基于CHI值特征选取的粗糙集文本分类规则抽取方法 总被引:6,自引:1,他引:6
结合文本分类规则抽取的特点,给出了近似规则的定义。该方法首先利用CHI值进行特征选取并为下一步特征选取提供特征重要性信息,然后使用粗糙集对离散决策表继续进行特征选取,最后用粗糙集抽取出精确规则或近似规则。该方法将CHI值特征选取和粗糙集理论充分结合,避免了用粗糙集对大规模决策表进行特征约简,同时避免了决策表的离散化。该方法提高了文本规则抽取的效率,并使其更趋实用化。实验结果表明了这种方法的有效性和实用性。 相似文献
2.
基于粗糙集的文本分类方法研究 总被引:8,自引:3,他引:8
本文旨在利用粗糙集优越的约简理论对文本进行分类。主要完成了以下几个方面的任务:对文本进行了预处理;改进了Okapi 权重计算公式,并对权值进行了离散化;实现了属性约简和规则抽取,首先利用区分矩阵对特征向量维数进行了初次压缩,然后通过相对约简计算再次压缩了特征向量维数,并生成了决策规则;采取了规则合成的策略,生成最终的决策规则;设计了一种文本与规则的匹配算法,使匹配过程尽可能简单有序。试验结果表明该方法是行之有效的。 相似文献
3.
4.
粗糙集分类算法中的近似决策规则和规则匹配方法 总被引:1,自引:0,他引:1
粗糙集分类算法在应用标准决策规则进行新对象分类时,经常碰到决策规则与新对象不完全匹配的情况。因此,近似决策规则和部分匹配方法常用于提高决策规则与新对象匹配的可能性。本文在概述和比较两种近似决策规则生成算法的基础上,以一个文本分类系统为例,提出了一种综合的、更有效的近似决策规则生成算法。文章还介绍了几种通用的规则匹配方法,提出了一系列实用的完全匹配和部分匹配公式。实验表明,新提出的近似决策规则生成算法和规则匹配公式能够有效地提高决策规则与新对象的匹配可能性与准确性。 相似文献
5.
基于RFM和粗糙集的客户分类规则提取 总被引:1,自引:0,他引:1
通过分析现有的分类规则提取方法,给出了一种提取客户分类规则的方法,该方法对客户的RFM属性进行K-均值聚类以确定客户价值,利用粗糙集完成规则提取,为客户分类提供了一种新的思路.通过实例验证了这种方法能够有效地对客户进行细分、提取分类规则,并提高了分类准确性. 相似文献
6.
随着计算机技术的发展,急剧产生海量的数据.如何从这些数据中提取有用的信息是一个重要的问题.一种新的数据分析方法--粗糙集理论被提出.该理论在分类的意义下定义了模糊性和不确定性的概念,是一种处理不确定和不精确问题的新型数学工具.文中首先对近年兴起的粗糙集的基本理论进行了讨论,在此基础上运用粗糙集理论对从数据库中规则的挖掘方法进行了研究.并通过一个实例详细地说明了具体挖掘过程,该实例说明了基于粗糙集进行规则的挖掘是较简单的. 相似文献
7.
8.
9.
粗糙集作为一种智能工具可以用来挖掘数据依赖,数据约简近似集分类以及从数据库中提取规则.本文将粗糙集方法应用在空气质量评估中,从空气数据库中提取其规则从而对数据进行有效的分析.研究表明,在知识推理和建立专家系统方面,粗糙集理论是一种非常有效的工具. 相似文献
10.
介绍中文文本分类的流程及相关技术。在分析传统的文本特征选择不足的基础上,提出了基于粗糙集与集成学习结合的文本分类方法,通过粗糙集进行文本的特征选择,采用一种集成学习算法AdaBoost.M1来提高弱分类器的分类性能,对中文文本进行分类。实验证明,这种算法分类结果的F1值比C4.5、kNN分类器都高,具有更加优良的分类性能。 相似文献
11.
An important issue in text mining is how to make use of multiple pieces knowledge discovered to improve future decisions.
In this paper, we propose a new approach to combining multiple sets of rules for text categorization using Dempster’s rule
of combination. We develop a boosting-like technique for generating multiple sets of rules based on rough set theory and model
classification decisions from multiple sets of rules as pieces of evidence which can be combined by Dempster’s rule of combination.
We apply these methods to 10 of the 20-newsgroups—a benchmark data collection (Baker and McCallum 1998), individually and
in combination. Our experimental results show that the performance of the best combination of the multiple sets of rules on
the 10 groups of the benchmark data is statistically significant and better than that of the best single set of rules. The
comparative analysis between the Dempster–Shafer and the majority voting (MV) methods along with an overfitting study confirm
the advantage and the robustness of our approach. 相似文献
12.
基于模糊决策树的文本分类规则抽取 总被引:8,自引:0,他引:8
提出一种合并分枝的模糊决策树文本分类方法对相似文本类进行分类,并可抽取出分类精度较高的模糊分类规则。首先研究改进了的χ2统计量,并根据改进的χ2统计量对文本的特征词条进行聚合,有效地降低了文本向量空间的维数。然后使用一种合并分枝的模糊决策树进行分类,大大减少了抽取的规则数量。从而既保证了决策树分类的精度和速度,又可抽取出可理解的模糊分类规则。 相似文献
13.
介绍了粗糙集理论的特征选择在客户关系管理中的应用.分析了以前特征选择方法中由于特征数目过多而造成分类时间和精度不高的缺点,提出了一种基于粗糙集的特征选择方法,其特点是以特征在分类中的重要性对特征进行选择.对客户关系管理进行了研究,为解决客户关系管理问题提出了一个新的方法,基于粗糙集的特征选择方法与传统的特征选择方法相比也能达到降维的目的.最后实验结果表明该算法是可行的. 相似文献
14.
借鉴已有的特征选取方法和粗糙集相关理论,本文提出了一种改进的基于粗糙集理论的特征选择方法,其主要思想是通过构造粒度函数将其应用于特征在分类中的重要性度量和约简,最后通过实验验证了该方法是有效的,并能够显著降低文本特征维数,提高分类的效率和精度。 相似文献
15.
规则加权的文本关联分类 总被引:2,自引:1,他引:2
近年来,基于关联规则的文本分类方法受到普遍关注。虽然在一般情况下这种方法可获得较好的分类效果。但当样本特征词分布明显不均时,分类规则在各类别的分布也出现不均,从而导致分类准确率下降。本文设计和实现的基于规则权重调整的关联规则文本分类算法可有效地解决这一问题。该算法根据误分类训练样本的数量定义规则强度。对强规则通过乘以小于1 的调整因子降低其权重,而弱规则乘以大于1的调整因子提高其权重。实验结果表明经过规则权重的调整,分类质量显著提高。 相似文献
16.
随着Web信息容量迅速膨胀,对Web文本分类已经是目前研究的热点.传统的Web文本分类对网页的预处理基本上没有考虑网页中的大量噪音,因此对分类结果有一定的影响;另一方面,文本的向量空间模型维数过高,对分类效果也存在很大的影响.提出一种基于粗糙集理论的Web文本分类方法,首先对网页进行去噪,然后对向量空间模型进行属性约简,之后构造分类器,实验表明,此方法不仅降低了维数,还提高了分类结果. 相似文献
17.
决策表的一种知识约简与规则获取方法 总被引:1,自引:0,他引:1
粗糙集理论是一种新型的数据挖掘和决策分析方法,利用粗糙集理论进行决策表的知识约简与决策规则挖掘已经成为研究热点。文中介绍了粗糙集的基本理论,在此基础上运用该理论对从决策表中获取最小规则进行了研究,提出了决策表约简的启发式方法,并通过一个具体实例详细说明了决策规则获取过程,实例分析表明了其有效性。 相似文献