共查询到20条相似文献,搜索用时 269 毫秒
1.
针对形式背景,利用概念外延与内涵之间特殊的关系,结合粗糙集上下近似概念,提出一种粗糙概念格构造算法,属性约简后运用粗糙度进行挖掘,获取可靠性知识。在构造过程中,对节点属性进行判断,有效地降低算法的时间复杂度。实际案例分析结果表明,通过属性约简与粗糙度的结合,该算法可以有效地挖掘获取可靠性知识,为数据分析挖掘知识提供了一种可行的思路和方法。 相似文献
2.
基于Iceberg概念格叠置半集成的全局闭频繁项集挖掘算法 总被引:2,自引:0,他引:2
研究专有的分布式数据挖掘算法是提高分布式数据库下数据分析和挖掘的有效方法.结合Iceberg概念格对于频繁项集精简表达的特性和其集成构造过程可并行化的特点,进而实现分布式全局闭频繁项集的挖掘.面对目前仍然缺乏有关Iceberg概念格分布式集成构造研究的文献,本文从理论上分析Iceberg概念格叠置集成构造全局Iceberg概念格的局限性,然后论证了基于Iceberg概念格叠置半集成构造全局Iceberg概念格的可行性,进而提出一个基于Iceberg概念格叠置半集成的频繁概念生长分布算法(Frecogd),并且把它应用于同构分布式环境下的全局闭频繁项集挖掘过程中.实验验证了该算法理论的可行性,同时也揭示了该算法的挖掘效能有待进一步的改进与提高. 相似文献
3.
4.
集成式数据流挖掘是对存在概念漂移的数据流进行学习的重要方法.针对传统集成式数据流挖掘存在的缺陷,将人类的回忆和遗忘机制引入到数据流挖掘中,提出基于记忆的数据流挖掘模型MDSM(memorizing based data stream mining).该模型将基分类器看作是系统获得的知识,通过"回忆与遗忘"机制,不仅使历史上有用的基分类器因记忆强度高而保存在"记忆库"中,提高预测的稳定性,而且从"记忆库"中选取当前分类效果好的基分类器参与集成预测,以提高对概念变化的适应能力.基于MDSM模型,提出了一种集成式数据流挖掘算法MAE(memorizing based adaptive ensemble),该算法利用Ebbinghaus遗忘曲线对系统的遗忘机制进行设计,并利用选择性集成来模拟人类的"回忆"机制.与4种典型的数据流挖掘算法进行比较,结果表明:MAE算法分类精度高,对概念漂移的整体适应能力强,尤其对重复出现的概念漂移以及实际应用中存在的复杂概念漂移具有很好的适应能力.不仅能够快速适应新的概念变化,并且能够有效抵御随机的概念波动对系统性能的影响. 相似文献
5.
概念格是一种数据分析和规则获取的有效工具,近年来概念格的应用和研究已逐渐成为数据分析领域的一个重要研究方向.当前随着信息技术的发展,流数据成为了大数据的重要组成部分,流数据知识挖掘中普遍存在的概念漂移已经成为近年来机器学习领域的热点问题.动态概念格的构造是概念格理论研究的重要研究任务,但是在流数据环境中进行概念格的概念漂移研究在学术界还没有展开.针对流数据环境中概念格的漂移问题,提出了一种面向滑动窗口法的概念格漂移计算方法.首先对滑动窗口中的流数据进行建模;然后对滑动窗口中的流入流出概念相同、流入流出概念不同、流入流出概念部分相交、流入概念包含流出概念和流出概念包含流入概念这五种现象分别进行推理研究;最后基于上述模型理论推理,提出面向滑动窗口法的概念格构造算法,并用实例说明了该算法的有效性和高效性. 相似文献
6.
面向高速数据流的集成分类器算法 总被引:1,自引:1,他引:0
数据流挖掘要求算法在占用少量内存空间的前提下快速地处理数据并且自适应概念漂移,据此提出一种面向高速数据流的集成分类器算法。该算法将原始数据流沿着时间轴划分为若干数据块后,在各个数据块上计算所有类别的中心点和对应的子空间;此后将各个数据块上每个类别的中心点和对应的子空间集成作为分类模型,并利用统计理论的相关知识检测概念漂移,动态地调整模型。实验结果表明,该方法能够在自适应数据流概念漂移的前提下对数据流进行快速的分类,并得到较好的分类效果。 相似文献
7.
8.
9.
概念漂移处理大多采用集成学习策略,然而这些方法多数不能及时提取漂移发生后新分布数据的关键信息,导致模型性能较差。针对这个问题,本文提出一种基于串行交叉混合集成的概念漂移检测及收敛方法(Concept drift detection and convergence method based on hybrid ensemble of serial and cross,SC_ensemble)。在流数据处于平稳状态下,该方法通过构建串行基分类器进行集成,以提取代表数据整体分布的有效信息。概念漂移发生后,在漂移节点附近构建并行的交叉基分类器进行集成,提取代表最新分布数据的局部有效信息。通过串行基分类器和交叉基分类器的混合集成,该方法兼顾了流数据包含的整体分布信息,又强化了概念漂移发生时的重要局部信息,使集成模型中包含了较多“好而不同”的基学习器,实现了漂移发生后学习模型的高效融合。实验结果表明,该方法可使在线学习模型在漂移发生后快速收敛,提高了模型的泛化性能。 相似文献
10.
11.
粗糙集理论和概念格理论均为研究知识发现与不确定性决策问题的重要方法,二者之间紧密相关。在提出概念格上的变精度粗糙集的β-上、下近似定义的基础上,一方面,对于任意给定的变精度β,讨论了概念格上变精度粗糙集β-上、下近似的性质;另一方面,针对不可定义对象集,分别提出了概念格上的变精度粗糙集β-上、下近似算法;最后,实例验证了新给出的算法可以满足用户对不同近似精度的要求,使近似结果有弹性的变化,较Yao和Monhanty给出的算法有一定的优势。 相似文献
12.
13.
数据挖掘的主要目标之一是进行有效分类,粗糙集的上下近似空间正是为了对信息系统进行分类。变精度粗糙集作为经典粗糙集的推广模型,目前研究仅局限于有限集。针对变精度粗糙集模型无法处理无限集合的问题,在变精度粗糙集和测度的理论基础上,提出了基于Lebesgue测度的变精度粗糙集模型。首先,引入Lebesgue测度的概念,构造了一种基于Lebesgue测度的变精度粗糙集模型,将变精度粗糙集理论推广到无限集;其次,定义了该模型的上、下近似空间;最后,证明了其相关性质。通过理论研究表明,该模型能有效处理无限集合问题,对变精度粗糙集的理论研究形成突破,也将极大的扩充其应用范围。 相似文献
14.
概念格和粗糙集是数据挖掘中对数据进行分析与处理的两个有力工具,它们在数据分析方面有相似之处.通过运用概念格刻画粗糙集的一些概念与性质给二者建立了联系.指出了概念格每个结点都是粗糙集中一个等价类,并借鉴粗糙集的思想,提出了在概念格中进行概念近似的方法.同时使用概念格中的概念重新描述了粗糙集的上下近似,最后通过事例将粗糙集中改进的区分矩阵运用于概念格中的属性约简,从而减少了区别矩阵的存储空间,并同时减少了区别矩阵的计算量,真正从一定意义上结合了二者的优点. 相似文献
15.
不确定性度量是粗糙集理论中的基础问题之一。粗糙模糊集的不确定性一方面来自上、下近似集间差异产生的粗糙性,另一方面来自概念外延不清晰产生的模糊性。目前对于粗糙模糊集的不确定性研究仍不够透彻。针对覆盖近似空间下的粗糙模糊集不确定性,提出更加严格的度量修正准则,并借助上、下近似集隶属度与原模糊集隶属度之间的差异,给出修正粗糙度的概念。算例分析表明该方法能够更加准确地刻画实际问题。 相似文献
16.
17.
18.
现有的模糊粗糙集方法,由于其基础理论复杂度的桎梏,无法应用到大规模数据集上.考虑到随机抽样是一种可以极大地减少运算量的统计学方法,本文将随机抽样引入到经典的模糊粗糙集理论中,建立了一种统计粗糙集模型.首先,我们提出了统计上、下近似的概念,它相比经典模糊粗糙集模型的优势在于, 以随机抽样得到的小容量样本代替大规模全集,从而显著降低了计算量.而且,随着全集数量增大,抽样样本数量并不会显著增大.这是本文的主要贡献.此外,我们还讨论了统计上下近似的性质,揭示统计上下近似和经典上下近似之间的关系.并且,我们提出了一个定理,该定理保证了统计下近似与经典下近似的取值统计误差在允许的范围内.最后,通过数值实验验证了统计下近似在计算时间上的显著优势. 相似文献
19.
粗集理论中知识的粗糙性研究 总被引:8,自引:0,他引:8
粗集理论是处理知识不精确和不完善的一种归纳学习方法,其基本思想是在保持分类能力不变的前提下,通过知识约简,导出概念的分类规则。熵作为对不确定性的一种度量,可用于描述近似空间(U,R)中对象的分类情况。在文中,知识的粗糙性定义为近似空间中的粗糙熵,近似空间上基于等价关系的划分过程是其粗糙熵不断减小的过程。同时讨论了信息系统中的若干粗糙熵性质。 相似文献
20.
Cost Complexity-Based Pruning of Ensemble Classifiers 总被引:1,自引:0,他引:1
In this paper we study methods that combine multiple classification models learned over separate data sets. Numerous studies
posit that such approaches provide the means to efficiently scale learning to large data sets, while also boosting the accuracy
of individual classifiers. These gains, however, come at the expense of an increased demand for run-time system resources.
The final ensemble meta-classifier may consist of a large collection of base classifiers that require increased memory resources
while also slowing down classification throughput. Here, we describe an algorithm for pruning (i.e., discarding a subset of
the available base classifiers) the ensemble meta-classifier as a means to reduce its size while preserving its accuracy and
we present a technique for measuring the trade-off between predictive performance and available run-time system resources.
The algorithm is independent of the method used initially when computing the meta-classifier. It is based on decision tree
pruning methods and relies on the mapping of an arbitrary ensemble meta-classifier to a decision tree model. Through an extensive
empirical study on meta-classifiers computed over two real data sets, we illustrate our pruning algorithm to be a robust and
competitive approach to discarding classification models without degrading the overall predictive performance of the smaller
ensemble computed over those that remain after pruning.
Received 30 August 2000 / Revised 7 March 2001 / Accepted in revised form 21 May 2001 相似文献