首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 269 毫秒
1.
针对形式背景,利用概念外延与内涵之间特殊的关系,结合粗糙集上下近似概念,提出一种粗糙概念格构造算法,属性约简后运用粗糙度进行挖掘,获取可靠性知识。在构造过程中,对节点属性进行判断,有效地降低算法的时间复杂度。实际案例分析结果表明,通过属性约简与粗糙度的结合,该算法可以有效地挖掘获取可靠性知识,为数据分析挖掘知识提供了一种可行的思路和方法。  相似文献   

2.
基于Iceberg概念格叠置半集成的全局闭频繁项集挖掘算法   总被引:2,自引:0,他引:2  
研究专有的分布式数据挖掘算法是提高分布式数据库下数据分析和挖掘的有效方法.结合Iceberg概念格对于频繁项集精简表达的特性和其集成构造过程可并行化的特点,进而实现分布式全局闭频繁项集的挖掘.面对目前仍然缺乏有关Iceberg概念格分布式集成构造研究的文献,本文从理论上分析Iceberg概念格叠置集成构造全局Iceberg概念格的局限性,然后论证了基于Iceberg概念格叠置半集成构造全局Iceberg概念格的可行性,进而提出一个基于Iceberg概念格叠置半集成的频繁概念生长分布算法(Frecogd),并且把它应用于同构分布式环境下的全局闭频繁项集挖掘过程中.实验验证了该算法理论的可行性,同时也揭示了该算法的挖掘效能有待进一步的改进与提高.  相似文献   

3.
基于概念格的分类和关联规则的集成挖掘方法   总被引:42,自引:0,他引:42  
胡可云  陆玉昌  石纯一 《软件学报》2000,11(11):1478-1484
改进了一个Bordat的建格算法,使之适合于集成挖掘的需要,进而提出一个从概念格上提取关 联规则和分类规则的算法,实现了关联规则和分类规则的挖掘在概念格框架下的统一.实验证明了算法的有效性.  相似文献   

4.
赵强利  蒋艳凰  卢宇彤 《软件学报》2015,26(10):2567-2580
集成式数据流挖掘是对存在概念漂移的数据流进行学习的重要方法.针对传统集成式数据流挖掘存在的缺陷,将人类的回忆和遗忘机制引入到数据流挖掘中,提出基于记忆的数据流挖掘模型MDSM(memorizing based data stream mining).该模型将基分类器看作是系统获得的知识,通过"回忆与遗忘"机制,不仅使历史上有用的基分类器因记忆强度高而保存在"记忆库"中,提高预测的稳定性,而且从"记忆库"中选取当前分类效果好的基分类器参与集成预测,以提高对概念变化的适应能力.基于MDSM模型,提出了一种集成式数据流挖掘算法MAE(memorizing based adaptive ensemble),该算法利用Ebbinghaus遗忘曲线对系统的遗忘机制进行设计,并利用选择性集成来模拟人类的"回忆"机制.与4种典型的数据流挖掘算法进行比较,结果表明:MAE算法分类精度高,对概念漂移的整体适应能力强,尤其对重复出现的概念漂移以及实际应用中存在的复杂概念漂移具有很好的适应能力.不仅能够快速适应新的概念变化,并且能够有效抵御随机的概念波动对系统性能的影响.  相似文献   

5.
概念格是一种数据分析和规则获取的有效工具,近年来概念格的应用和研究已逐渐成为数据分析领域的一个重要研究方向.当前随着信息技术的发展,流数据成为了大数据的重要组成部分,流数据知识挖掘中普遍存在的概念漂移已经成为近年来机器学习领域的热点问题.动态概念格的构造是概念格理论研究的重要研究任务,但是在流数据环境中进行概念格的概念漂移研究在学术界还没有展开.针对流数据环境中概念格的漂移问题,提出了一种面向滑动窗口法的概念格漂移计算方法.首先对滑动窗口中的流数据进行建模;然后对滑动窗口中的流入流出概念相同、流入流出概念不同、流入流出概念部分相交、流入概念包含流出概念和流出概念包含流入概念这五种现象分别进行推理研究;最后基于上述模型理论推理,提出面向滑动窗口法的概念格构造算法,并用实例说明了该算法的有效性和高效性.  相似文献   

6.
面向高速数据流的集成分类器算法   总被引:1,自引:1,他引:0  
李南  郭躬德 《计算机应用》2012,32(3):629-633
数据流挖掘要求算法在占用少量内存空间的前提下快速地处理数据并且自适应概念漂移,据此提出一种面向高速数据流的集成分类器算法。该算法将原始数据流沿着时间轴划分为若干数据块后,在各个数据块上计算所有类别的中心点和对应的子空间;此后将各个数据块上每个类别的中心点和对应的子空间集成作为分类模型,并利用统计理论的相关知识检测概念漂移,动态地调整模型。实验结果表明,该方法能够在自适应数据流概念漂移的前提下对数据流进行快速的分类,并得到较好的分类效果。  相似文献   

7.
最大频繁项集挖掘算法存在扫描数据集次数多和候选集规模过大等局限。基于Iceberg概念格模型,提出一种在Iceberg概念格上挖掘最大频繁项集的算法ICMFIA。该算法通过一次扫描数据集构建Iceberg概念格,利用Iceberg概念格中频繁概念之间良好的覆盖关系能快速计算出最大频繁项集所对应的最大频繁概念,所有最大频繁概念的内涵就是所求的最大频繁项集的集合。实验结果表明,该算法具有扫描数据集次数少和挖掘效率高的优点。  相似文献   

8.
近似概念格及其增量构造算法研究*   总被引:1,自引:1,他引:0  
针对传统概念格处理不完备信息的局限,给出了处理形式背景有缺值现象的概念格扩展模型———近似概念格,在此基础上提出改进的概念格增量构造算法。该算法引入哈希技术和最近父节点的增量计算方法,从加速定位生成元和更新边这两个关键过程改进Godin算法。采用随机数据集设计实验,实验表明,改进的算法可有效提高对形式背景有缺值现象概念格的建格效率,尤其是对数据规模和发生关系概率较大的数据集,算法的高效性更明显。  相似文献   

9.
概念漂移处理大多采用集成学习策略,然而这些方法多数不能及时提取漂移发生后新分布数据的关键信息,导致模型性能较差。针对这个问题,本文提出一种基于串行交叉混合集成的概念漂移检测及收敛方法(Concept drift detection and convergence method based on hybrid ensemble of serial and cross,SC_ensemble)。在流数据处于平稳状态下,该方法通过构建串行基分类器进行集成,以提取代表数据整体分布的有效信息。概念漂移发生后,在漂移节点附近构建并行的交叉基分类器进行集成,提取代表最新分布数据的局部有效信息。通过串行基分类器和交叉基分类器的混合集成,该方法兼顾了流数据包含的整体分布信息,又强化了概念漂移发生时的重要局部信息,使集成模型中包含了较多“好而不同”的基学习器,实现了漂移发生后学习模型的高效融合。实验结果表明,该方法可使在线学习模型在漂移发生后快速收敛,提高了模型的泛化性能。  相似文献   

10.
概念格研究进展   总被引:3,自引:0,他引:3  
概念格理论是一种有效的知识表示与知识发现的工具,已被成功应用于许多领域.介绍了国内外现有的建格算法及概念格上分类规则和关联规则提取方法,比较了各种建格算法的优缺点,讨论了概念格属性约简理论的研究方法和研究进展.另外,还介绍了概念格在数据挖掘、信息检索、软件工程等领域的应用,给出了与粗糙集的关系及其它的一些研究成果.最后,给出了概念格有待完善的研究领域.  相似文献   

11.
粗糙集理论和概念格理论均为研究知识发现与不确定性决策问题的重要方法,二者之间紧密相关。在提出概念格上的变精度粗糙集的β-上、下近似定义的基础上,一方面,对于任意给定的变精度β,讨论了概念格上变精度粗糙集β-上、下近似的性质;另一方面,针对不可定义对象集,分别提出了概念格上的变精度粗糙集β-上、下近似算法;最后,实例验证了新给出的算法可以满足用户对不同近似精度的要求,使近似结果有弹性的变化,较Yao和Monhanty给出的算法有一定的优势。  相似文献   

12.
变精度粗糙集模型约简特征分析*   总被引:1,自引:1,他引:0  
阐明了变精度粗糙集模型中,经典粗糙集模型分类质量、相对正域、决策类下近似不再具有非单调递减特征,在约简过程中分类质量和相对正域会出现跳跃现象,约简过程具有不稳定性;但决策类下近似不会出现跳跃现象,可以得到稳定的约简过程;并且三者之间打破了在经典粗糙集模型中的等价性,需要针对三者分别建立模型,使属性约简变得多样化。  相似文献   

13.
数据挖掘的主要目标之一是进行有效分类,粗糙集的上下近似空间正是为了对信息系统进行分类。变精度粗糙集作为经典粗糙集的推广模型,目前研究仅局限于有限集。针对变精度粗糙集模型无法处理无限集合的问题,在变精度粗糙集和测度的理论基础上,提出了基于Lebesgue测度的变精度粗糙集模型。首先,引入Lebesgue测度的概念,构造了一种基于Lebesgue测度的变精度粗糙集模型,将变精度粗糙集理论推广到无限集;其次,定义了该模型的上、下近似空间;最后,证明了其相关性质。通过理论研究表明,该模型能有效处理无限集合问题,对变精度粗糙集的理论研究形成突破,也将极大的扩充其应用范围。  相似文献   

14.
概念格和粗糙集是数据挖掘中对数据进行分析与处理的两个有力工具,它们在数据分析方面有相似之处.通过运用概念格刻画粗糙集的一些概念与性质给二者建立了联系.指出了概念格每个结点都是粗糙集中一个等价类,并借鉴粗糙集的思想,提出了在概念格中进行概念近似的方法.同时使用概念格中的概念重新描述了粗糙集的上下近似,最后通过事例将粗糙集中改进的区分矩阵运用于概念格中的属性约简,从而减少了区别矩阵的存储空间,并同时减少了区别矩阵的计算量,真正从一定意义上结合了二者的优点.  相似文献   

15.
郑婷婷  朱凌云 《计算机科学》2014,41(11):252-255
不确定性度量是粗糙集理论中的基础问题之一。粗糙模糊集的不确定性一方面来自上、下近似集间差异产生的粗糙性,另一方面来自概念外延不清晰产生的模糊性。目前对于粗糙模糊集的不确定性研究仍不够透彻。针对覆盖近似空间下的粗糙模糊集不确定性,提出更加严格的度量修正准则,并借助上、下近似集隶属度与原模糊集隶属度之间的差异,给出修正粗糙度的概念。算例分析表明该方法能够更加准确地刻画实际问题。  相似文献   

16.
传统粗糙集理论源于集合论平台,其上、下近似算子在描述函数方面存在缺陷。针对该问题,利用定义在整数轴上能严格划分出单调实函数的标度工具,提出上、下粗糙函数概念,形成实数域上的粗糙函数模型。构建与其匹配的Galois格,并通过可辨识矩阵对其概念格进行了知识约简。  相似文献   

17.
不同知识粒度下GIS属性数据粗糙度量   总被引:2,自引:0,他引:2       下载免费PDF全文
GIS不确定性做为一个GIS的研究热点,以前对其研究主要集中在概率论等传统研究方法上。利用粗糙集的上、下近似概念,将GIS属性数据看成信息系统的属性集合,按照不同属性组合对GIS实体集进行等价类划分,然后应用粗糙度、粗糙精度、粗糙熵来度量GIS属性数据的不确定性,发现若具有相同属性,随着不同知识粒度的逐渐“细化”,粗糙精度和粗糙熵逐渐递减,这符合人的认知习惯,为GIS不确定性和GIS认知研究提供了一种新的方向。  相似文献   

18.
统计粗糙集     
陈俞  赵素云  陈红  李翠平  孙辉 《软件学报》2016,27(7):1645-1654
现有的模糊粗糙集方法,由于其基础理论复杂度的桎梏,无法应用到大规模数据集上.考虑到随机抽样是一种可以极大地减少运算量的统计学方法,本文将随机抽样引入到经典的模糊粗糙集理论中,建立了一种统计粗糙集模型.首先,我们提出了统计上、下近似的概念,它相比经典模糊粗糙集模型的优势在于, 以随机抽样得到的小容量样本代替大规模全集,从而显著降低了计算量.而且,随着全集数量增大,抽样样本数量并不会显著增大.这是本文的主要贡献.此外,我们还讨论了统计上下近似的性质,揭示统计上下近似和经典上下近似之间的关系.并且,我们提出了一个定理,该定理保证了统计下近似与经典下近似的取值统计误差在允许的范围内.最后,通过数值实验验证了统计下近似在计算时间上的显著优势.  相似文献   

19.
粗集理论中知识的粗糙性研究   总被引:8,自引:0,他引:8  
粗集理论是处理知识不精确和不完善的一种归纳学习方法,其基本思想是在保持分类能力不变的前提下,通过知识约简,导出概念的分类规则。熵作为对不确定性的一种度量,可用于描述近似空间(U,R)中对象的分类情况。在文中,知识的粗糙性定义为近似空间中的粗糙熵,近似空间上基于等价关系的划分过程是其粗糙熵不断减小的过程。同时讨论了信息系统中的若干粗糙熵性质。  相似文献   

20.
Cost Complexity-Based Pruning of Ensemble Classifiers   总被引:1,自引:0,他引:1  
In this paper we study methods that combine multiple classification models learned over separate data sets. Numerous studies posit that such approaches provide the means to efficiently scale learning to large data sets, while also boosting the accuracy of individual classifiers. These gains, however, come at the expense of an increased demand for run-time system resources. The final ensemble meta-classifier may consist of a large collection of base classifiers that require increased memory resources while also slowing down classification throughput. Here, we describe an algorithm for pruning (i.e., discarding a subset of the available base classifiers) the ensemble meta-classifier as a means to reduce its size while preserving its accuracy and we present a technique for measuring the trade-off between predictive performance and available run-time system resources. The algorithm is independent of the method used initially when computing the meta-classifier. It is based on decision tree pruning methods and relies on the mapping of an arbitrary ensemble meta-classifier to a decision tree model. Through an extensive empirical study on meta-classifiers computed over two real data sets, we illustrate our pruning algorithm to be a robust and competitive approach to discarding classification models without degrading the overall predictive performance of the smaller ensemble computed over those that remain after pruning. Received 30 August 2000 / Revised 7 March 2001 / Accepted in revised form 21 May 2001  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号