首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
在不完备决策表中,引入基于相容关系的相对知识量,定义属性的重要度,提出一种启发式属性约简算法。该算法通过在约简过程中不断缩小样本空间的方法,降低算法计算时间。采用UCI数据集进行实验,结果表明该算法可提高不完备决策表的约简效率,适用于大规模数据集的属性约简。  相似文献   

2.
高琪  李德玉    王素格   《智能系统学报》2020,15(2):374-385
在实际生活当中,存在着大量的高维多标记数据,为解决维度灾难问题,通常需要约简属性集。针对目前的多标记属性约简算法未考虑标记关系问题,本文提出了一种融合标记关系的模糊不一致对多标记属性约简算法。利用相对熵(KL散度)度量标记之间的关系,定义标记权重,结合标记权重,定义模糊不一致对,考虑到属性对于模糊不一致对的区分性,定义属性重要性并进行属性约简。在8个数据集上的对比实验表明,所提基于模糊不一致对的多标记属性约简算法优于当前的多标记属性约简算法。  相似文献   

3.
白鹤翔  王健  李德玉  陈千 《计算机应用》2015,35(8):2355-2359
针对"大数据"中常见的大规模无监督数据集中特征选择速度难以满足实际应用要求的问题,在经典粗糙集绝对约简增量式算法的基础上提出了一种快速的属性选择算法。首先,将大规模数据集看作一个随机到来的对象序列,并初始化候选约简为空集;然后每次都从大规模数据集中无放回地随机抽取一个对象,并且每次都判断使用当前候选约简能否区分这一对象和当前对象集中所有应当区分的对象,并将该对象放入到当前对象集中,如果不能区分则向候选约简中添加合适的属性;最后,如果连续I次都没有发现无法区分的对象,那么将候选约简作为大规模数据集的约简。在5个非监督大规模数据集上的实验表明,所求得的约简能够区分95%以上的对象对,并且求取该约简所需的时间不到基于区分矩阵的算法和增量式约简算法的1%;在文本主题挖掘的实验中,使用约简后的数据集挖掘出的文本主题同原始数据集挖掘出的主题基本一致。两组实验结果表明该方法能够有效快速对大规模数据集进行属性选择。  相似文献   

4.
陈俞  赵素云  李雪峰  陈红  李翠平 《软件学报》2017,28(11):2825-2835
传统的属性约简由于其时间复杂度和空间复杂度过高,几乎无法应用到大规模的数据集中.将随机抽样引入传统的模糊粗糙集中,使得属性约简的效率大幅度提升.首先,在统计下近似的基础上提出一种统计属性约简的定义.这里的约简不是原有意义上的约简,而是保持基于统计下近似定义的统计辨识度不变的属性子集.然后,采用抽样的方法计算统计辨识度的样本估计值,基于此估计值可以对统计属性重要性进行排序,从而可以设计一种快速的适用于大规模数据的序约简算法.由于随机抽样集以及统计近似概念的引入,该算法从时间和空间上均降低了约简的计算复杂度,同时又保持了数据集中信息含量几乎不变.最后,数值实验将基于随机抽样的序约简算法和两种传统的属性约简算法从以下3个方面进行了对比:计算属性约简时间消耗、计算属性约简空间消耗、约简效果.对比实验验证了基于随机抽样的序约简算法在时间与空间上的优势.  相似文献   

5.
MapReduce框架下并行知识约简算法模型研究   总被引:5,自引:0,他引:5  
面向大规模数据进行知识约简是近年来粗糙集理论研究热点。经典的知识约简算法是一次性将小数据集装入单机主存中进行约简,无法处理海量数据。深入剖析了知识约简算法中的可并行性;设计并实现了数据和任务同时并行的Map和Reduce函数,用于计算不同候选属性集导出的等价类和属性重要性;构建了一种MapReduce框架下并行知识约简算法模型,用于计算基于正区域、基于差别矩阵或基于信息熵的知识约简算法的一个约简。在Hadoop平台上进行了相关实验,实验结果表明,该并行知识约简算法模型可以高效地处理海量数据集。  相似文献   

6.
针对传统属性约简算法利用等价关系计算过程繁琐,样本集较大时运行时间长的问题,提出一种利用模糊欧氏距离的快速属性约简算法。定义模糊欧氏距离计算属性间距离;应用层次商空间结构构建约简粒层空间;以粒层空间聚类结果作为约简基础,实现样本集属性约简。仿真结果表明,该算法约简速度不受样本集样本数量限制,运算速度较快,能够在不删除样本的情况下实现数据的快速约简,约简后对数据集分类精度影响小,部分数据集分类精度有所提升,为大规模数据集约简提供了新的研究思路。  相似文献   

7.
属性约简是信息系统中的一个重要操作,而分类是属性约简的基础,且直接在大数据集上进行属性约简往往存在效率低下的问题。故以分类为基础提出了一种基于信息熵的信息系统并行属性约简算法。该算法通过信息熵的计算,在属性约简的同时对原信息系统逐层分解成尽量均匀的子表,从而实现了属性约简的并行计算并缩小了搜索空间。对该算法的时间复杂度进行了分析,实验表明,该算法在效率方面优于传统算法。  相似文献   

8.
针对集值信息系统正域约简算法在大规模数据集下的运行效率问题,提出一种基于启发式的集值信息系统快速正域约简算法。通过研究属性和对象在约简过程中对算法运行效率产生的影响,在集值信息系统中引入属性无关性和属性重要度保序性的相关定义,介绍了使得算法运行效率提升的相关定理、快速算法和应用实例。通过实验对提出算法的有效性进行分析和验证。实验表明,提出算法的运行效率优于原始算法的运行效率。  相似文献   

9.
针对粗糙集理论中传统的基于正域的属性约简算法和基于信息熵的属性约简算法无法得到最小约简集的问题,给出基于信息熵改进的属性约简算法,即先使用条件熵识别出重要度值最大的属性,使用正域进行约简判断。在此基础上,设计了高效的基于MapReduce的信息熵改进属性约简算法。以真实海量气象数据为基础,在Hadoop集群上实现上述算法,验证了该算法的有效性和效率。  相似文献   

10.
求核和属性约简是粗糙集理论研究的一个核心问题。文中主要针对现有的一些决策表属性约简算法存在的不足,尤其是基于信息熵的属性约简算法在较大数据集上效率不高的问题提出改进。主要通过结合粗糙集的相关理论来改进原有的属性约简算法在求核中的约束条件,进而在原有算法的基础上提出了一种改进算法。在求约简属性集时,利用新提出的约简算法,使计算复杂度降低,同时保持了高效的决策准确率。实验结果表明改进后的决策表属性约简方法能够更加快速有效地找到约简集。  相似文献   

11.
由于数据随时间和空间不断更新,很多基于粗糙集的增量方法被提出。然而,动态数据上基于模糊粗糙集的特征选取(也称属性约简)更新的研究较少,特别是连续型动态数据上的增量特征选取。为了解决这个问题,提出适用于连续型数据的基于模糊粗糙集的增量属性约简算法。首先提出模糊粗糙基本概念的增量机制,如模糊正域的增量机制。只有部分示例在已有属性约简上的辨识能力不足,即对于模糊正域来说,存在一个关键示例集。增量约简算法基于已有数据上的约简结果,仅需要更新关键示例集中的示例,而非全部的论域。因而该增量算法在动态数据上能快速获得约简的更新。通过数值对比实验可以看出,增量算法比非增量算法在运行时间上有明显的优势。特别是对于高维数据集,增量算法可以大大地节省计算时间。  相似文献   

12.
代价敏感属性选择问题的目的是通过权衡测试代价和误分类代价,得到一个具有最小总代价的属性子集。目前,多数代价敏感属性选择方法只考虑误分类代价固定不变的情况,不能较好地解决类分布不均衡等问题。而在大规模数据集上,算法效率不理想也是代价敏感属性选择的主要问题之一。针对这些问题,以总代价最小为目标,设计了一种新的动态误分类代价机制。结合分治思想,根据数据集规模按列自适应拆分各数据集。基于动态误分类代价重新定义最小代价属性选择问题,提出了动态误分类代价下的代价敏感属性选择分治算法。通过实验表明,该算法能在提高效率的同时获得最优误分类代价,从而保证所得属性子集的总代价最小。  相似文献   

13.
云计算环境下差别矩阵知识约简算法研究   总被引:2,自引:0,他引:2  
知识约简是粗糙集理论的重要研究内容之一。经典的差别矩阵知识约简算法只能处理小数据集,而已有的任务并行的知识约简算法是假设所有数据一次性装入内存中,这显然不适合处理海量数据。为此,剖析了差别矩阵元素的特性,根据属性(集)的不可辨识性和云计算技术MapRcducc设计了适合数据并行的差别矩阵,并首次提出了面向大规模数据的差别矩阵知识约简算法。实验结果表明该知识约简算法是有效可行的,且具有较好的可扩展性。  相似文献   

14.
针对大数据环境下属性约简问题,提出基于MapReduce改进离散型萤火虫算法(IDGSO)和多重分形(MFD)的属性约简方法.首先,通过对萤火虫个体的移动方式进行离散化改进,引入迁徙策略和高斯变异策略,避免陷入局部最优,并提出改进离散型萤火虫算法.然后,将IDGSO结合MFD应用于属性约简中.最后,针对大数据环境下属性约简问题,采用MapReduce编程模式,实现对IDGSO和MFD的并行化.在UCI数据集和实际气象数据集上的实验表明,文中算法约简性能较优,运行效率较快,具有较好的有效性和可行性.  相似文献   

15.
康猛  蒙祖强 《计算机应用》2022,42(2):449-456
基于区分矩阵的传统属性约简方法具有直观易理解的优点,但时间和空间复杂度都很高,当数据规模较大或条件属性较多时,会无法快速得到约简结果。为解决该问题,在区分关系的基础上构造了条件区分能力来进行属性选择,提出一种基于条件区分能力的属性约简算法。而为了进一步加快属性重要性的计算、提高约简效率,依据大数定律中频率的稳定性,通过采样的方式将条件区分能力扩展为局部条件区分能力,提出基于局部条件区分能力的属性约简算法。理论证明了条件区分能力在属性的选择上比正区域更严格,并将该算法与基于区分度的高效前向属性约简算法(FAR-DV)、基于k近邻属性重要度和相关系数的属性约简算法(K2NCRS)及基于正区域排序升序决策表的快速正区域约简算法(FPRA)进行了对比。实验结果显示,该算法在属性选择顺序、约简率和分类精度上与FAR-DV基本一致,在约简效率上比上述三种算法提高了10倍以上;且随着数据规模的增大或条件属性的增多,在约简效率上的提升越明显。可以看出,所提算法具有更低的时空复杂度,适用于海量数据属性约简。  相似文献   

16.
银行客户群体细分对于业务营销具有深远的意义, 客户信息具有数据量大、维度高、变化需求频繁的特点, 为此需要引入一种快速的属性约简算法, 以满足关键属性快速提取进而构建决策的要求. 本文通过改进传统的基于蚁群的属性约简算法, 优化每次迭代过程中的蚂蚁搜索的集合转移策略, 提出了一种基于快速蚁群算法的属性约简算法. 多个UCI数据集实验计算表明提出的新算法求解速度优于传统的基于蚁群算法的属性约简算法, 并且求解质量较优; 最后通过银行客户数据进行实践, 验证了该算法的可行性.  相似文献   

17.
鲍迪  张楠  童向荣  岳晓冬 《计算机应用》2019,39(8):2288-2296
实际应用中存在大量动态增加的区间型数据,若采用传统的非增量正域属性约简方法进行约简,则需要对更新后的区间值数据集的正域约简进行重新计算,导致属性约简的计算效率大大降低。针对上述问题,提出区间值决策表的正域增量属性约简方法。首先,给出区间值决策表正域约简的相关概念;然后,讨论并证明单增量和组增量的正域更新机制,提出区间值决策表的正域单增量和组增量属性约简算法;最后,通过8组UCI数据集进行实验。当8组数据集的数据量由60%增加至100%时,传统非增量属性约简算法在8组数据集中的约简耗时分别为36.59 s、72.35 s、69.83 s、154.29 s、80.66 s、1498.11 s、4124.14 s和809.65 s,单增量属性约简算法的约简耗时分别为19.05 s、46.54 s、26.98 s、26.12 s、34.02 s、1270.87 s、1598.78 s和408.65 s,组增量属性约简算法的约简耗时分别为6.39 s、15.66 s、3.44 s、15.06 s、8.02 s、167.12 s、180.88 s和61.04 s。实验结果表明,提出的区间值决策表的正域增量式属性约简算法具有高效性。  相似文献   

18.
李艳  范斌  郭劼 《计算机应用》2022,42(9):2701-2712
属性约简是粗糙集理论中的研究热点,对连续值数据进行属性约简的算法大多基于优势关系或邻域关系。然而连续值数据集的属性不一定具有优势关系;而基于邻域关系的属性约简算法虽然可以通过邻域半径调整粒化程度,不过由于各属性量纲不同且半径参数为连续值使半径难以统一,导致整个参数粒化过程计算量较大。为解决此问题,提出一种基于聚类粒化的多粒度属性约简策略。首先,利用聚类方法将相似样本归类,并提出了基于聚类的近似集、相对正域及正域约简概念;其次,根据JS(Jensen-Shannon)散度理论对簇间各属性数据分布进行差异性度量,并选择出具有代表性的特征用以区分不同类簇;最后,利用可辨识矩阵设计了属性约简算法。所提算法不要求属性具有序关系,且不同于邻域半径,聚类参数为离散值,调节此参数就能够对数据集形成不同粒化程度的划分。在UCI与Kent Ridge数据集上进行的实验结果表明,该属性约简算法可以直接处理连续值数据,且该算法在较小范围内离散地调节聚类参数便能在保持甚至提高分类精度的前提下去除数据集中的冗余特征。  相似文献   

19.
Test-cost-sensitive attribute reduction is an important component in data mining applications, and plays a key role in cost-sensitive learning. Some previous approaches in test-cost-sensitive attribute reduction focus mainly on homogeneous datasets. When heterogeneous datasets must be taken into account, the previous approaches convert nominal attribute to numerical attribute directly. In this paper, we introduce an adaptive neighborhood model for heterogeneous attribute and deal with test-cost-sensitive attribute reduction problem. In the adaptive neighborhood model, the objects with numerical attributes are dealt with classical covering neighborhood, and the objects with nominal attributes are dealt with the overlap metric neighborhood. Compared with the previous approaches, the proposed model can avoid that objects with different values of nominal attribute are classified into one neighborhood. The number of inconsistent objects of a neighborhood reflects the discriminating capability of an attribute subset. With the adaptive neighborhood model, an inconsistent objects-based heuristic reduction algorithm is constructed. The proposed algorithm is compared with the \(\lambda \)-weighted heuristic reduction algorithm which nominal attribute is normalized. Experimental results demonstrate that the proposed algorithm is more effective and more practical significance than the \(\lambda \)-weighted heuristic reduction algorithm.  相似文献   

20.
Test-cost-sensitive attribute reduction   总被引:1,自引:0,他引:1  
Fan Min  Huaping He 《Information Sciences》2011,181(22):4928-4942
In many data mining and machine learning applications, there are two objectives in the task of classification; one is decreasing the test cost, the other is improving the classification accuracy. Most existing research work focuses on the latter, with attribute reduction serving as an optional pre-processing stage to remove redundant attributes. In this paper, we point out that when tests must be undertaken in parallel, attribute reduction is mandatory in dealing with the former objective. With this in mind, we posit the minimal test cost reduct problem which constitutes a new, but more general, difficulty than the classical reduct problem. We also define three metrics to evaluate the performance of reduction algorithms from a statistical viewpoint. A framework for a heuristic algorithm is proposed to deal with the new problem; specifically, an information gain-based λ-weighted reduction algorithm is designed, where weights are decided by test costs and a non-positive exponent λ, which is the only parameter set by the user. The algorithm is tested with three representative test cost distributions on four UCI (University of California - Irvine) datasets. Experimental results show that there is a trade-off while setting λ, and a competition approach can improve the quality of the result significantly. This study suggests potential application areas and new research trends concerning attribute reduction.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号