首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
代价敏感属性选择问题的目的是通过权衡测试代价和误分类代价,得到一个具有最小总代价的属性子集。目前,多数代价敏感属性选择方法只考虑误分类代价固定不变的情况,不能较好地解决类分布不均衡等问题。而在大规模数据集上,算法效率不理想也是代价敏感属性选择的主要问题之一。针对这些问题,以总代价最小为目标,设计了一种新的动态误分类代价机制。结合分治思想,根据数据集规模按列自适应拆分各数据集。基于动态误分类代价重新定义最小代价属性选择问题,提出了动态误分类代价下的代价敏感属性选择分治算法。通过实验表明,该算法能在提高效率的同时获得最优误分类代价,从而保证所得属性子集的总代价最小。  相似文献   

2.
差异化多敏感属性Lq-Diversity模型和算法   总被引:1,自引:0,他引:1  
针对多维敏感属性数据发布面临的一般泄露、交叉泄露、相似性泄露、多维独立泄露的威胁,本文提出了敏感属性敏感等级和敏感属性值敏感等级的概念,基于单维l-diversity模型,对各维敏感属性进行单独分组,提出了差异化多维敏感属性模型,验证了该模型在面向多敏感属性数据发布的安全性,并根据此模型提出了相应的DMSA算法,通过实验验证,该算法正确可行,且隐匿率和附加信息损失度的值都很低,数据可用性高,具有良好的隐私保护效果.  相似文献   

3.
为了防止数据敏感属性的泄露,需要对数据敏感属性进行匿名保护。针对l-多样性模型当前已提出的算法大多是建立在概念层次结构的基础上,该方法会导致不必要的信息损失。为此,将基于属性泛化层次距离KACA算法中的距离度量方法与聚类结合,提出了一种基于聚类的数据敏感属性匿名保护算法。该算法按照l-多样性模型的要求对数据集进行聚类。实验结果表明,该算法既能对数据中的敏感属性值进行匿名保护,又能降低信息的损失程度。  相似文献   

4.
数据库推理控制问题是数据库安全研究的重要组成部分.采用属性统一的描述敏感信息,通过属性间的关联关系刻画了对敏感信息进行推理的一般过程.研究了推理通道的检测方法和两阶段的推理控制策略.提出了一种通用的基于属性关联的有效和完备的推理控制方法.并给出了相应算法.  相似文献   

5.
代价敏感学习是数据挖掘研究领域最具有挑战性的问题之一。属性约简是数据挖掘中重要的经典问题。代价敏感属性约简问题是对经典属性约简问题的自然扩展,已经逐渐成为研究的热点。对当前具有代表性的5种处理名词性数据的代价敏感属性约简算法进行了分析和比较,总结了每种算法的各方面特性及不足之处,从而便于研究者对已有算法进行改进,并且进一步提出具有更好性能的新的约简算法,方便用户对算法的选择和使用。  相似文献   

6.
阮晓宏  黄小猛  袁鼎荣  段巧灵 《计算机科学》2013,40(Z11):140-142,146
代价敏感学习方法常常假设不同类型的代价能够被转换成统一单位的同种代价,显然构建适当的代价敏感属性选择因子是个挑战。设计了一种新的异构代价敏感决策树分类器算法,该算法充分考虑了不同代价在分裂属性选择中的作用,构建了一种基于异构代价的分裂属性选择模型,设计了基于代价敏感的剪枝标准。实验结果表明,该方法处理代价机制和属性信息的异质性比现有方法更有效。  相似文献   

7.
针对决策者在面对几个分类结果时会有选择其中某一个结果的倾向性这一事实,提出了一种基于相关性的类偏好敏感决策树分类算法(CPSDT)。该算法引入了类偏好度、偏好代价矩阵等概念。为弥补在传统决策树构造过程中,选择分裂属性时未考虑非类属性之间相关性的不足,该算法在进行学习之前先采用基于相关性的特征预筛选排除属性冗余并重新构造了基于相关性的属性选择因子。经实验证明,该算法能够有效减小决策树规模,且能够在实现对偏好类的高精度预测的同时保证决策树拥有较好的整体精度。  相似文献   

8.
面向多敏感属性医疗数据发布的隐私保护技术   总被引:1,自引:0,他引:1  
金华  刘善成  鞠时光 《计算机科学》2011,38(12):171-177
针对目前多敏感属性医疗数据发布问题,在分析多维桶分组技术的基础上,继承了有损连接对隐私数据进行保护的思想,提出了一种基于相同敏感属性集的L-覆盖性聚类分组方法。首先计算每条记录的相同敏感属性集,然后按照聚类的思想将满足L-覆盖性的记录进行分组。同时给出了L-覆盖性聚类分组的实现算法(LCCU)。实际数据集上的大量实验结果表明,该方法可以有效防止隐私泄露,同时增强数据的可用性。  相似文献   

9.
模糊决策粗糙集代价敏感属性约简研究   总被引:1,自引:1,他引:0  
刘偲  秦亮曦 《计算机科学》2016,43(Z11):67-72
针对决策中普遍存在的代价问题,在模糊理论和决策粗糙集的基础上,对其代价敏感属性约简方法进行了研究。在模糊决策粗糙集属性约简中引入了包含误分类代价和测试代价的总代价。因此约简的目标不再只是考虑正域的大小,而是寻找使得总代价最小的最优属性子集。提出了一种模糊决策粗糙集代价敏感属性约简(COSAR)算法,该算法采用启发式方法搜索最优属性子集。给出了算法的步骤,并将该算法与已有的模糊粗决策粗糙集属性快速约简(QuickReduct)算法进行了性能对比。实验结果表明,COSAR算法比QuickReduct算法具有更强的属性约简能力、更低的分类总代价、更短的运行时间,且随着测试样本的增加,分类总代价差值也越来越大。  相似文献   

10.
针对实际中存在的各类别样本错分造成不同危害程度的分类问题,提出了一种基于属性加权的代价敏感支持向量机分类算法,即在计算各个样本特征属性对分类的重要度之后,对相应的属性进行重要度加权,所得的数据用于训练和测试代价敏感支持向量机。数值实验的结果表明,该方法提高了误分代价高的类别的分类精度,同时属性重要度的引入提高了分类器的整体分类性能。该方法对错分代价不对称的数据分类问题具有重要的现实意义。  相似文献   

11.
通过实例证明了现有的两种属性重要度定义的不完备性,提出了一种加权求和的属性重要度定义,在此基础上构造了属性约简的启发式算法。通过几个算例的测试,验证了该算法的有效性。  相似文献   

12.
一种基于差别矩阵的启发式属性约简算法   总被引:2,自引:0,他引:2       下载免费PDF全文
为了获得决策系统中更好的相对属性约简,本文提出了一种基于差别矩阵的启发式属性约简算法。该算法以求差别矩阵为基础,不仅考虑了所选择条件属性与决策属性的互信 息,还考虑了其取值的分布情况,从信息论角度定义了一种新的属性重要性度量方法,将其作为启发式信息,最终求得属性约简集。实例表明,算法能够有效地对决策系统进进行约简,获得比较理想的约简结果,同时约简后的决策规则数目较少。  相似文献   

13.
决策树算法是数据挖掘中重要的分类算法。目前,已有许多构建决策树的算法,其中,ID3算法是核心算法。本文首先对ID3算法进行研究与分析,针对计算属性的信息熵十分复杂的缺点,提出了一种新的启发式算法SID3,它是基于属性对分类的敏感度的。文章最后通过实例对两种算法进行比较分析,结果表明,SID3算法能够生成正确的决策树,并且使建树过程更简便,更快速。  相似文献   

14.
不相容决策表的属性约简算法   总被引:1,自引:0,他引:1       下载免费PDF全文
对Skowron可辨识矩阵方法进行分析,并应用反例说明基于Skowron可辨识矩阵的属性约简算法对不相容决策表的属性约简,可能会导致错误的结果。针对这一问题,提出了一种基于改进可辨识矩阵的属性频率约简算法。该算法以改进的可辨识矩阵为基础,以属性频率作为启发信息,同时在算法中加入消除冗余属性二次约简过程。提供了实例分析,验证了该算法能够有效地对相容与不相容的决策表进行属性约简。  相似文献   

15.
属性约简是粗糙集理论中的重要问题。许多学者针对邻域粗糙集提出多种属性约简方法,包括应用最为广泛的启发式算法。在多半径邻域粗糙集的基础上,针对当前启发式约简算法往往会包含一定冗余属性的缺陷,提出一种融合属性权重影响的改进约简运算方法,通过根据各属性权值大小设置阈值使得约简结果能够消除冗余属性。实验选取UCI的数据集与当前几种常用启发式约简算法进行比较分析。实验结果表明,所提出的属性约简方法能够得到更优的约简集合,同时更大程度地保留了决策表本身的知识信息,具有较高的分类能力。  相似文献   

16.
传统启发式正域属性约简算法在每次迭代的过程中需要添加当前正域依赖度最大的属性进入已选定的特征属性子集,算法迭代次数多且效率低,难以应用于高维大规模数据集的特征选择中。针对上述问题,研究决策系统中正域之间的单调关系,给出了多尺度属性粒(MSAG)的形式化描述,提出了一种基于多尺度属性粒的快速正域约简算法(MAG-QPR)。由于多尺度属性粒包含多个属性,可以对已选定的特征属性子集提供较大的正域,因此,通过每次迭代添加MSAG,可以达到减少迭代次数和使选定的特征属性子集能更快地趋近于条件属性全集的正域分辨能力的目的,从而提高了启发式正域约简算法的效率。在实验部分,选取8组UCI数据进行实验,对于数据集Lung Cancer、Flag和German,MAG-QPR与基于正向近似的正域保持属性约简算法(FSPA-PR)、基于正向近似的条件熵属性约简算法(FSPA-SCE)、后向贪婪正域保持属性约简算法(BGRAP)和后向贪婪启发式广义决策保持属性约简算法(BGRAG)的运行时间加速比分别为9.64、15.70、5.03、2.50;3.93、7.55、1.69、4.57;3.61、6.49、1.30、9.51。实验结果表明,所提算法MAG-QPR提高了算法效率,具有更好的分类精度。  相似文献   

17.
Attribute reduction is one of the most important issues in the research of rough set theory. Numerous significance measure based heuristic attribute reduction algorithms have been presented to achieve the optimal reduct. However, how to handle the situation that multiple attributes have equally largest significances is still largely unknown. In this regard, an enhancement for heuristic attribute reduction (EHAR) in rough set is proposed. In some rounds of the process of adding attributes, those that have the same largest significance are not randomly selected, but build attribute combinations and compare their significances. Then the most significant combination rather than a randomly selected single attribute is added into the reduct. With the application of EHAR, two representative heuristic attribute reduction algorithms are improved. Several experiments are used to illustrate the proposed EHAR. The experimental results show that the enhanced algorithms with EHAR have a superior performance in achieving the optimal reduct.  相似文献   

18.
决策表属性约简及其条件信息量表示   总被引:5,自引:1,他引:4  
桂现才  彭宏 《计算机工程与应用》2006,42(14):197-199,203
讨论了决策表属性约简和条件信息量之间的关系,证明了对于一致决策表,其属性约简在代数表示下和信息论中条件信息量表示下是等价的。并举例说明,对于不一致决策表,其属性约简的代数表示不能用条件信息量来等价表示。论文还给出了一种基于条件信息量的属性约简启发式算法。  相似文献   

19.
唐鹏飞  张贤勇  莫智文 《计算机应用研究》2021,38(11):3300-3303,3309
区间集决策信息表拓展了经典决策信息表,但其属性约简研究较少.针对区间集决策信息表存在的问题,采用模型正域及相关依赖度提出属性约简及其启发式约简算法.在区间集粗糙集模型中,定义关于决策分类的正域与依赖度,证明粒化单调性等性质.提出基于依赖度的属性约简,设计启发式约简算法.实例分析与数据实验表明,设计的基于依赖度的启发式约简算法是有效的,所得结果有利于依赖学习与特征优化.  相似文献   

20.
属性约简是粗糙集的一个核心研究课题,但经典属性约简及其延伸算法是基于有决策属性的决策表的属性约简算法,它们对无决策属性的非常规决策表的属性约简无能为力。以粗糙集理论为基础,对无决策属性的非常规决策表从分形维数方面进行研究,提出了一种适用于无决策属性的决策表的启发式属性约简算法。该算法在一定程度上能够解决非常规决策表的属性约简问题,进一步扩展了粗糙集理论的应用范围。实例表明该算法是有效可行的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号