共查询到17条相似文献,搜索用时 203 毫秒
1.
针对不完备、不一致性数据的属性约简是数据挖掘研究的一个重要内容。将信息增益,不一致度相结合,提出一种面向不完备不一致性数据的属性约简算法。首先,介绍了信息增益,定义了不一致度的概念与算法公式,并给出了基于二者对数据进行填补的方法;然后,基于该填补方法,以最大不一致度条件下的信息增益为权值,以不一致度为属性约简的启发信息,给出属性约简算法;最后,通过实验证明了所提算法的有效性。 相似文献
2.
分析HORAFA算法和HORAFA-A算法的不足,给出一种获得最优约简的启发式算法.算法以核属性为初始约简集,以属性频率为启发式信息,选择必要的属性加入约简集.该算法不仅适用于相容决策表系统,也适用于不相容决策表系统;同时,改进了反向消除方法,可以更快速地删除多余条件属性.实验表明,该算法是正确的,并且效率优于HORAFA-A算法. 相似文献
3.
属性约简是粗糙集理论重要研究内容之一,基于可分辨矩阵的属性约简方法需占用大量存储空间,不利于大数据集的处理.为此,引入差别集定义和基于差别集属性约简定义,并指出基于差别集属性约简本质上是在当前差别集中不断寻求关键属性的过程,并给出删除单个条件属性和删除条件属性集两种获取关键属性的属性约简方法,同时证明了这两种属性约简方法是正确的、完备的;进一步,为了获得最小属性约简,采用两个启发式信息来筛选关键属性;在上述基础上,设计基于差别集的启发式属性约简算法.最后,通过实例和实验验证了该算法的有效性和高效性. 相似文献
4.
为在决策表中获得更好的属性约简组合,从信息论角度分析,在基于区分矩阵的基础上,提出一种改进的以条件熵作启发信息的约简算法。同时考虑条件属性相对于决策属性的条件信息熵以及属性值的分布情况,用它们的比作为启发因子,重新给出一种度量属性重要度的依据,得到属性约简集。实验结果表明,该算法能够有效约简属性集,使约简结果获得最简决策规则组合。 相似文献
5.
为了获得决策系统中更好的相对属性约简,本文提出了一种基于差别矩阵的启发式属性约简算法。该算法以求差别矩阵为基础,不仅考虑了所选择条件属性与决策属性的互信 息,还考虑了其取值的分布情况,从信息论角度定义了一种新的属性重要性度量方法,将其作为启发式信息,最终求得属性约简集。实例表明,算法能够有效地对决策系统进进行约简,获得比较理想的约简结果,同时约简后的决策规则数目较少。 相似文献
6.
基于粒度计算的特征选择方法 总被引:1,自引:0,他引:1
从粒度计算的划分模型出发,重新定义了相容决策表的约简,并给出了一种新的基于粒度计算的属性约简算法.该算法以信息熵作为启发信息,通过逐渐增加属性构成条件属性集相对于决策属性的约简,再通过删除约简中的所有不必要属性,得到最小约简.该算法有效地降低了计算属性约简的时间复杂度,可以用于较大规模数据集的特征选择.在5个公开的基因表达数据集上的实验证明了该算法能找到高区分能力的特征子集. 相似文献
7.
8.
基于正域的属性约简算法是利用"下近似"思想,仅考虑被正确区分样本数的约简算法。借鉴"上近似"的思想,利用"邻域信息粒"的概念定义了区分对象集,探讨了其基本性质,并提出了基于区分对象集的属性重要度度量及启发式属性约简算法。该约简算法既考虑信息决策表的相对正域,也考虑以核属性为启发信息逐个增加条件属性时对边界域样本的影响。通过实例分析,说明了所提算法的可行性,并且以6个UCI标准数据集为实验对象,与基于正域的属性约简算法进行对比实验。实验结果说明,采用提出的约简算法得到的约简属性集,与基于正域的属性约简算法相比,在进行分类任务时的分类精度能够保持不变或有所提高。 相似文献
9.
基于粗糙集和信息增益的属性约简改进方法 总被引:2,自引:0,他引:2
针对属性过多对于有效的数据挖掘很不利以及约简中差别矩阵的产生会占用较大存储空间的问题,提出了一种基于粗糙集和信息增益的属性约简改进算法.该算法首先采用信息增益技术对决策表属性进行相关分析,删除部分冗余属性,减小属性约简的复杂度,然后直接从决策表中提取出分明函数,求出属性约简.由于避免了分明矩阵的生成,因此该算法不仅节约了时间和空间,而且提高了效率. 相似文献
10.
提出一种基于粗糙集描述理论与灰理论的故障诊断属性约简方法,将用粗糙集描述理论算法进行故障诊断条件属性约简的结果,依据灰色关联度算法计算灰关联系数,进一步确定约简集中条件属性间的重要性,求取最佳属性约简集.在柴油机燃油系故障诊断系统,获取了最佳属性约简集,系统运行测试获得好的故障诊断结果. 相似文献
11.
针对决策树C4.5算法在处理连续值属性过程中时间复杂度较高的问题,提出一种新的决策树构建方法:采用概率论中属性间的相关系数(Pearson),对数据集中的属性进行约简;结合属性的信息增益率,保留决策属性的最优子集,保证属性子集中没有冗余属性;采用边界点的判定,改进了连续值属性离散化过程中阈值分割方法,对信息增益率的计算进行修正。采用UCI数据库中的数据集,在Pycharm平台上进行一系列对比实验,结果表明:采用改进后C4.5决策树算法,决策树生成效率提高了约50%,准确率提升约2%,比较有效地解决了原C4.5算法属性选择偏连续值属性的问题。 相似文献
12.
为了获得决策系统中更好的相对属性约简,提出一种基于互信息的多目标属性约简算法。该算法首先根据互信息寻找核属性集;然后以最小属性子集和最大互信息为目标,定义新的适应度函数,在粒子运动方程、克隆及自适应变异的共同作用下进化;并通过非支配排序及精英保留策略寻找满足目标的Pareto最优解。通过UCI标准数据集上的对比测试结果表明,算法能够有效地对决策系统进行约简。 相似文献
13.
14.
条件属性的重要性存在差异,通过引入差异度,对不完备信息系统中属性的重要性进行了定义,提出了一种基于权重联系度的属性约简算法。通过实例说明该算法能得到不完备决策表的最小相对约简。 相似文献
15.
经典属性约简及其延伸算法是基于有决策属性的信息系统的属性约简算法,它们对无决策属性的信息系统的属性约简无能为力.为此,本文以粗集理论为基础,对无决策属性的信息系统从集合论的论域划分方面进行研究,提出了一种适用于无决策属性的信息系统的启发式属性约简算法.该算法在一定程度上能够解决无决策属性的信息系统属性约简问题,进一步扩展了粗集理论的应用范围.实例表明该算法是有效可行的. 相似文献
16.
17.
Pawlak粗糙集的知识约简包括对决策表的知识约简和对信息表的知识约简。作为Pawlak粗糙集的扩展,邻域粗糙集在针对决策表的属性约简方面应用广泛,而针对信息表的属性约简方面应用鲜少。为了设计一种适用于信息表的属性约简算法,根据Pawlak粗糙集的信息表知识约简标准,首先提出一种邻域粗糙集的信息表知识约简标准,然后根据这种标准,结合贪心思想,进一步提出了一种适用于聚类任务的信息表属性约简算法。与主成分分析(principal component analysis,PCA)算法相比,实验结果表明用该算法对数据集降维后,得到的属性约简集合的属性个数较多,K-means算法根据属性集合进行聚类的精度较高。实验结果证明该算法能有效地应用于信息表的属性约简方面。 相似文献