共查询到19条相似文献,搜索用时 62 毫秒
1.
以属性在可分辨矩阵中出现的频率作为启发,对HORAFA算法做了一些改进。引入二进制可辨识矩阵,利用二进制可辨识矩阵求出相对核。以相对核为基础,依次加入属性重要度大的属性,直到不能再加。 相似文献
2.
基于粗糙集的数据约简方法研究 总被引:2,自引:1,他引:1
属性约简是粗糙理论的基础与核心研究问题.针对求取属性最小约简的NP问题,设计一种基于粗糙集的数据约简算法,寻求决策系统的近似最小约简.首先改进差别矩阵快速获取优化差别集,然后利用优化差别集中属性频度作为启发式信息,递归地调用算法寻找当前最重要属性,搜索过程中所有重要属性构成的集合即为最终所求约简.将该算法应用于电子商务用户访问模式数据浓缩,理论分析与仿真实例表明了该算法的可行性和有效性. 相似文献
3.
基于可辨识矩阵的快速粗糙集属性约简算法 总被引:1,自引:0,他引:1
Karno Bozi提出的Core Searching算法在向约简中插入候选属性的时候,根据属性出现次数需要循环查找可辨识矩阵中的所有剩余项,直至矩阵为空,导致计算量较大和结果中冗余属性存在的可能.基于Core Searching算法提出通过给属性设立计数器的基于可辨识矩阵的快速属性约简算法,实例分析表明,该算法与Core Searching算法相比,在计算量减少和循环次数减少的同时能得到更简约的结果,是一种快速、高效的属性约简算法. 相似文献
4.
基于核属性依赖的属性约简算法研究 总被引:1,自引:0,他引:1
数据库中的数据往往含有大量冗余或不必要的属性,严重降低了数据挖掘算法的时间效率和算法质量,因此删除数据的冗余属性和无关属性即属性约简就成了数据预处理过程中的主要任务,而粗糙集理论是处理属性约简的一个非常实用的理论工具.在深入研究粗糙集理论的基础上,结合数据库操作知识给出了基于核属性依赖的属性约简新方法.该算法能过滤掉属性集合中的无关属性和冗余属性,从而得到满意的属性约简,该算法复杂度较小.实验结果证明了该算法有效. 相似文献
5.
以属性在可分辨矩阵中出现的频率作为启发,对HORAFA算法做了一些改进。引入二进制可辨识矩阵,利用二进制可辨识矩阵求出相对核。以相对核为基础,依次加入属性重要度大的属性,直到不能再加。 相似文献
6.
垂直划分二进制可分辨矩阵的属性约简 总被引:1,自引:0,他引:1
针对二进制可分辨矩阵属性约简方法在处理大数据集时的不足,首先给出两种二进制可分辨矩阵属性约简的定义,并证明这两个属性约简定义与正区域的属性约简定义是等价的;然后,给出对二进制可分辨矩阵按条件属性垂直划分后进行属性约简的方法;为了进一步降低空间开销,提出将垂直分解的二进制可分辨矩阵存于外部介质中,在约简过程中,仅将所需部分调入内存,由此设计启发式属性约简算法,其时间和空间复杂度的上界分别为 (∣ ∣∣ ∣2)和 (∣ ∣2);最后,理论分析和实验结果验证了该算法的正确性和高效性. 相似文献
7.
粗糙集具有很强的定性分析能力,通过不可分辨关系找出内在规律性,很适合做属性的约简。可辩识矩阵为属性约简提供了一个浓缩了的属性区分信息,可以方便求到核属性,但对于矩阵中除核属性之外的其他属性组合的研究却不容易。熵是概率统计方法中一个概念,概率性的知识提供了一种度量。本文就是基于粗糙集的理论,运用可辨识矩阵,结合信息熵思想,提出一种属性约简算法,保证约简效果与速度。 相似文献
8.
9.
属性约简是粗糙集理论重要研究内容之一,基于可分辨矩阵的属性约简方法需占用大量存储空间,不利于大数据集的处理.为此,引入差别集定义和基于差别集属性约简定义,并指出基于差别集属性约简本质上是在当前差别集中不断寻求关键属性的过程,并给出删除单个条件属性和删除条件属性集两种获取关键属性的属性约简方法,同时证明了这两种属性约简方法是正确的、完备的;进一步,为了获得最小属性约简,采用两个启发式信息来筛选关键属性;在上述基础上,设计基于差别集的启发式属性约简算法.最后,通过实例和实验验证了该算法的有效性和高效性. 相似文献
10.
11.
基于可分辨矩阵的属性约简算法需要占用大量的存储空间,可分辨矩阵中许多元素项对约简是多余的;并且随着问题规模的增大,该类算法的效率并不理想。针对上述不足,提出一种基于有序差别集的属性约简算法,该算法不需要创建可分辨矩阵和生成多余的元素项,大大降低了存储量和计算量,从而提高了属性约简效率,使算法的时间复杂度和空间复杂度分别降为max{O(|C|2 |U/C|2),O(|C|2|MsCount|)}和O(|MsCount|)。实验表明该算法是有效的、高效的。 相似文献
12.
提出了基于分明矩阵的启发式知识约简算法.该算法以分明矩阵中属性出现的频率作为启发信息,通过构造新的决策表,每次选取出现个数最多的属性,直到选取的属性能够保持原决策表的分类能力,此时得到的集合即是一个约简.试验结果表明,该算法在大多数情况下都能够找到最小约简或令人满意的次优解. 相似文献
13.
14.
基于正域的属性约简算法是利用"下近似"思想,仅考虑被正确区分样本数的约简算法。借鉴"上近似"的思想,利用"邻域信息粒"的概念定义了区分对象集,探讨了其基本性质,并提出了基于区分对象集的属性重要度度量及启发式属性约简算法。该约简算法既考虑信息决策表的相对正域,也考虑以核属性为启发信息逐个增加条件属性时对边界域样本的影响。通过实例分析,说明了所提算法的可行性,并且以6个UCI标准数据集为实验对象,与基于正域的属性约简算法进行对比实验。实验结果说明,采用提出的约简算法得到的约简属性集,与基于正域的属性约简算法相比,在进行分类任务时的分类精度能够保持不变或有所提高。 相似文献
15.
传统粗糙集分类方法过于严格,对噪音过分敏感。针对带不确定因子决策系统,提出一种基于属性依赖度的约简算法,使含不确定信息及数据噪音的系统中的属性得以简化,找到一种具有广泛表达能力的数据隐含格式,删去冗余的规则,并保持系统的原有用途和性能。通过一个例子实现了该算法。 相似文献
16.
17.
18.
李丹 《计算机工程与应用》2017,53(19):168-172
随着网络和通信技术的快速的发展,社会进入了大数据时代。如何能够快速地从海量大数据中找到属性约简是目前研究的一个热点。由于传统属性约简的方法在计算大数据属性约简时,需要消耗巨大的计算时间,不能有效地处理日益积累的大数据属性约简的问题。为了提高传统属性约简算法的效率,针对较大决策信息系统属性约简更新问题,利用多粒度粗糙集理论,提出了基于多粒度粗糙集模型的矩阵属性约简算法,通过2组UCI数据集对所提出的多粒度矩阵属性约简算法的性能进行测试,结果验证了该多粒度矩阵属性约简算法是合理且有效的。 相似文献
19.
针对基于正域的属性约简算法在约简过程中存在重复计算属性相对重要度从而导致算法效率低的问题,从属性度量和搜索策略的角度提出基于知识粗糙熵的快速属性约简算法。首先,在决策信息系统中通过引入知识距离提出知识粗糙熵以度量知识的粗糙程度;其次,利用知识粗糙熵作为属性显著度的评价标准来评估单个属性的重要程度;最后,利用属性重要度对所有条件属性进行排序,且通过属性依赖度删除冗余属性,从而实现快速约简。在六个公开数据集上将所提算法与其他三种算法在运行效率和分类精度上进行对比实验。结果表明,该算法的运行效率比其他三种算法分别提高了83.24%、28.77%和59.92%;在三种分类器中,分类精度分别平均提高了0.83%、0.63%和1.37%。因此,所提算法在保证分类性能的同时,能以更快的速度获得约简。 相似文献