首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
白鹤翔  王健  李德玉  陈千 《计算机应用》2015,35(8):2355-2359
针对"大数据"中常见的大规模无监督数据集中特征选择速度难以满足实际应用要求的问题,在经典粗糙集绝对约简增量式算法的基础上提出了一种快速的属性选择算法。首先,将大规模数据集看作一个随机到来的对象序列,并初始化候选约简为空集;然后每次都从大规模数据集中无放回地随机抽取一个对象,并且每次都判断使用当前候选约简能否区分这一对象和当前对象集中所有应当区分的对象,并将该对象放入到当前对象集中,如果不能区分则向候选约简中添加合适的属性;最后,如果连续I次都没有发现无法区分的对象,那么将候选约简作为大规模数据集的约简。在5个非监督大规模数据集上的实验表明,所求得的约简能够区分95%以上的对象对,并且求取该约简所需的时间不到基于区分矩阵的算法和增量式约简算法的1%;在文本主题挖掘的实验中,使用约简后的数据集挖掘出的文本主题同原始数据集挖掘出的主题基本一致。两组实验结果表明该方法能够有效快速对大规模数据集进行属性选择。  相似文献   

2.
基于模糊粗糙集的传统约简算法的时间代价较高,在处理大规模数据时耗时过长,且在许多实际大规模数据集上存在有限时间内无法收敛等问题。因此将权重引入属性约简的定义中,其中属性权重是属性重要度的数值指标。通过构建优化问题来求解属性权重,证明了属性依赖度即是属性权重的最优解。因此,提出了基于属性权重排序的约简算法,从而大大提升了约简的速度,使得约简算法可以应用于大规模数据集,特别是高维数据集中。  相似文献   

3.
焦娜 《计算机科学》2016,43(1):49-52
粗糙集理论是一个能有效地删除冗余特征的工具。由于实际应用的数据往往是连续的,并且结构复杂、特征多,现有的粗糙集知识约简方法对真实复杂的数据计算效率较低。为此,首先将相容关系应用于粗糙集的知识约简,再将复杂的信息表纵向分割成简单的缩减表和小规模信息表,然后把缩减表和小规模信息表连接起来进行知识约简。实例表明,提出的方法能够有效提高粗糙集对复杂数据的计算效率。  相似文献   

4.
传统中由单一的神经网络等算法所构架起的评价模型主要存在着精度低、网络学习速度慢等不合理之处.为此,提出了基于粗糙集和RBF神经网络的大规模数据集环境下的评价方法.首先详解了粗糙集理论对大规模高维数据所确定的宽泛属性集的分类、约简;然后把处理后的数据指标作为RBF神经网络的输入进行训练、仿真.以高速公路路面性能使用评价为...  相似文献   

5.
MapReduce框架下并行知识约简算法模型研究   总被引:5,自引:0,他引:5  
面向大规模数据进行知识约简是近年来粗糙集理论研究热点。经典的知识约简算法是一次性将小数据集装入单机主存中进行约简,无法处理海量数据。深入剖析了知识约简算法中的可并行性;设计并实现了数据和任务同时并行的Map和Reduce函数,用于计算不同候选属性集导出的等价类和属性重要性;构建了一种MapReduce框架下并行知识约简算法模型,用于计算基于正区域、基于差别矩阵或基于信息熵的知识约简算法的一个约简。在Hadoop平台上进行了相关实验,实验结果表明,该并行知识约简算法模型可以高效地处理海量数据集。  相似文献   

6.
传统的并行属性约简算法通过利用抽样技术获取小数据样本进行知识约简,但对于大数据集来说,样本数据不具有一般性且无法代表整个数据集.为了弥补传统并行属性约简算法只能用来计算最小属性约简、处理小数据集的缺陷,论文通过分析了先验知识在粒计算中的重要性,结合云计算技术处理海量数据的优势,以粗糙集理论为背景,从不同角度、层次出发建立层次粗糙集模型,提出基于云计算的层次粗糙集模型约简算法,讨论并实现了知识约简算法中的可并行化操作,利用Hadoop在普通计算机集群上进行试验,从运行时间、加速比、可扩展性三个方面对所提出基于正区域、信息熵、边界域算法的重要性进行评价.实验证明:基于云计算的层次粗糙集模型约简算法可以有效处理大数据集.  相似文献   

7.
云计算环境下知识约简算法   总被引:8,自引:0,他引:8  
钱进  苗夺谦  张泽华 《计算机学报》2011,34(12):2332-2343
知识约简是粗糙集理论的重要研究内容之一.经典的知识约简算法是假设所有数据一次性装入内存中,这显然不适合处理海量数据.为此,从属性(集)的可辨识性和不可辨识性出发,给出了可辨识和不可辨识对象对的概念及其性质,并阐述了它们与差别矩阵的关系.利用MapReduce设计了并行计算等价类的方法,提出了面向大规模数据的数据并行知识...  相似文献   

8.
针对混合不完备数据集,提出了一种新型双邻域粗糙集分类方法。首先,定义一个无参数的邻域联系度距离,并建立基于无参数邻域联系度距离的双邻域粗糙集模型;其次,基于所构建的模型,给出基于覆盖约简的双邻域粗糙集规则约简方法,获得约简后的上近似规则集和下近似规则集;再次,基于约简后的上、下近似规则集,给出最近邻分类方法;最后,取7个UCI公共测试集做实验分析,通过与混合距离HEOM、带参数邻域联系度距离的双邻域粗糙集分类方法对比,结果表明提出的分类方法仍然取得了优异的分类效果,其突出的优势是不再需要通过大量实验来确定其参数值。  相似文献   

9.
邻域粗糙集可以直接处理数值型数据, F- 粗糙集是第一个动态粗糙集模型. 针对动态变化的数值型数据, 结合邻域粗糙集和F- 粗糙集的优势, 提出了F- 邻域粗糙集和F- 邻域并行约简. 首先, 定义了F- 邻域粗糙集上下近似、边界区域; 其次, 在F- 邻域粗糙集中提出了F- 属性依赖度和属性重要度矩阵; 根据F- 属性依赖度和属性重要度矩阵分别提出了属性约简算法, 证明了两种约简方法的约简结果等价; 最后, 比对实验在UCI数据集、真实数据集和MATLAB生成数据集上完成, 实验结果显示, 与相关算法比较, F- 邻域粗糙集可以获得更好的分类准确率. 为粗糙集在大数据方面的应用增加了一种新方法.  相似文献   

10.
指出现有粗糙集属性约简算法的不足,考虑并行遗传算法在处理大型数据库上的特有优势,将粗糙熵作为粗糙集不确定性的度量,给出一种求解信息系统约简集的三群体并行遗传算法.最后通过实例计算表明该算法能快速有效求解属性约简,而且对大规模数据样本的信息系统效果更为明显.  相似文献   

11.
针对数据集为模糊值时冗余信息难于消除的问题,提出了基于模糊相似关系的广义模糊粗糙集与QuickReduct算法相结合的方法。利用广义模糊粗糙集数据相似程度对属性值为实数值的数据集合进行约简,不需要预先对原始数据集合进行离散化,约简结果能更完整地反映原信息系统的分类能力。同时算法中利用了启发式信息,使模糊依赖性增加较快的属性作为最小约简。计算实例验证了该方法的有效性。  相似文献   

12.
基于遗传算法和模糊粗糙集的知识约简   总被引:4,自引:0,他引:4  
朱江华  李海波  潘丰 《计算机仿真》2007,24(1):86-89,119
虽然粗糙集理论为处理离散属性提供了很好的工具,但它不能直接运用于具有连续变量的数据上面,而现实中的数据又包含着大量的连续变量.为了能够对连续属性集进行有效的知识约简,充分利用遗传算法的全局优化和并行计算的优点,结合模糊粗糙集的理论,对连续属性集进行知识约简,较粗糙集而言避开了连续属性的离散化过程,减少了信息损失,加快了约简速度,提高了决策支持度.首先利用一个仿真实例来验证该算法的有效性和快速性,然后把它运用于某一柴油机的故障数据集的约简,通过约简获得了影响输出故障模式的主要输入变量集,实现了数据的预处理,为进行柴油机的故障模式诊断提供了先决条件.  相似文献   

13.
属性约简是粗糙集理论的重要应用之一,其目的是在保持分类能力不变的前提下去掉冗余的属性,从而简化信息系统。由于经典粗糙集等价关系的要求过于严格,为了更好地解决实际问题,将粗糙集与二型模糊集结合,得到二型模糊粗糙集。利用论域和特征空间的积空间上的两个一型模糊集来构造论域的一个二型模糊划分,将模糊粗糙集属性约简的模型推广到二型模糊粗糙集框架中,得到了一个二型模糊粗糙属性约简的模型,并举例说明了用此模型进行属性约简的方法。  相似文献   

14.
由于数据随时间和空间不断更新,很多基于粗糙集的增量方法被提出。然而,动态数据上基于模糊粗糙集的特征选取(也称属性约简)更新的研究较少,特别是连续型动态数据上的增量特征选取。为了解决这个问题,提出适用于连续型数据的基于模糊粗糙集的增量属性约简算法。首先提出模糊粗糙基本概念的增量机制,如模糊正域的增量机制。只有部分示例在已有属性约简上的辨识能力不足,即对于模糊正域来说,存在一个关键示例集。增量约简算法基于已有数据上的约简结果,仅需要更新关键示例集中的示例,而非全部的论域。因而该增量算法在动态数据上能快速获得约简的更新。通过数值对比实验可以看出,增量算法比非增量算法在运行时间上有明显的优势。特别是对于高维数据集,增量算法可以大大地节省计算时间。  相似文献   

15.
结合Rough Set理论研究了分布式处理海量数据中的关键问题,即分割海量数据集的问题。经典的RoughSet算法要求数据常驻内存,因此不能有效地处理海量数据。为了能够直接处理海量数据集,根据最佳分割的定义,结合属性约简的思想,提出基于属性约简的粗糙集海量数据分割算法(Mass Data Partition for Rough Seton Attribute Reducdon,MD-PRS—AR)。通过实验表明,MDPRS—AR算法的分割效率比传统的算法约高70%,而且与处理整个数据集的算法相比,正确性损失不大。  相似文献   

16.
模糊粗糙集是经典粗糙集为适应实际应用需求所进行的拓展,然而目前很多的模糊粗糙集模型都仅仅使用多个二元关系的简单融合方式,不具备调节功能。为解决这一问题,使用参数化的二元算子,提出了一种可调节的模糊粗糙集模型。在此基础上,将近似质量作为度量标准,使用启发式算法来求解可调节模糊粗糙集的约简。最后对可调节模糊粗糙集的近似质量和约简与强模糊粗糙集、弱模糊粗糙集的结果进行了比较分析。实验结果表明,可调节模糊粗糙集通过使用不同的参数,具有很好的调节作用,是强模糊粗糙集和弱模糊粗糙集的一种泛化形式。  相似文献   

17.
为了在多粒度粗糙集模型中对目标概念达到更好的近似逼近效果,首先将直觉模糊粗糙集与多粒度粗糙集结合,提出直觉模糊多粒度粗糙集模型。由于该模型的目标近似存在过于宽松的缺陷,因此通过引入参数的方式对所提模型进行改进,提出一种可变直觉模糊多粒度粗糙集模型,并证明了该模型的有效性,同时基于该模型提出了相应的近似分布约简算法。在仿真实验结果中,所提出的下近似分布约简结果比已提出的模糊多粒度决策理论粗糙集约简和多粒度双量化决策理论粗糙集多了2~4个属性,所提出的上近似分布约简算法比这些算法少了1~5个属性,同时约简结果的近似精度拥有了更为合理且优越的表现。因此,理论和实验结果均验证了所提的可变直觉模糊多粒度粗糙集模型在近似逼近和数据降维方面均具有更高的优越性。  相似文献   

18.
属性约简能有效地去除不必要属性,提高分类器的性能。模糊粗糙集是处理不确定信息的重要范式,能有效地应用于属性约简。在模糊粗糙集中,样本分布的不确定性会影响对象的近似集,进而影响有效属性约简的获取。为有效地定义近似集,文中提出了基于距离比值尺度的模糊粗糙集,该模型引入了基于距离比值尺度的样本集的定义,通过对距离比值尺度的控制,避免了样本分布不确定性对近似集的影响;给出了该模型的基本性质,定义了新的依赖度函数,进而设计了属性约简算法;以SVM,NaiveBayes和J48作为测试分类器,在UCI数据集上评测所提算法的性能。实验结果表明,所提出的属性约简算法能够有效获取约简并提高分类的精度。  相似文献   

19.
基于直觉模糊粗糙集的属性约简   总被引:3,自引:0,他引:3  
针对Jensen下近似定义的局限性,提出一种新的等价类形式的近似算子表示,并将其推广到直觉模糊环境.在此基础上,将相对正域、相对约简、相对核等粗糙集的知识约简概念推广到直觉模糊环境,提出一种直觉模糊信息系统的启发式属性约筒算法.实例计算表明.该方法比Jensen的属性约简方法更为合理有效.  相似文献   

20.
基于粗糙集和模糊集的属性约简算法   总被引:3,自引:0,他引:3       下载免费PDF全文
粗糙集理论和模糊集理论都是用来处理不完整和不确定信息的理论,两者都可用来观察、测试数据并进行推理。虽然它们之间有一些重叠,但两者的着眼点和计算方法是不一样的,因此不能相互替代,而是必须结合起来使用。本文在研究粗糙集和模糊集理论的基础上将两者相结合,提出了一个新的属性约简算法,并给出了一个应用实例。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号