共查询到19条相似文献,搜索用时 62 毫秒
1.
2.
知识约简是数据挖掘应用中知识获取的重要步骤。经典的知识约简算法是一次性将小数据集装入内存中进行知识约简,而传统的并行知识约简仅仅利用任务并行来提高约简算法效率,都无法处理海量数据。通过分析经典的知识约简算法,构建了不可辨识的对象对,提出了保持边界域划分的知识约简算法,并探讨了保持边界域划分的知识约简算法之间的关系。深入剖析了知识约简算法中数据和任务同时并行的可行性,提出了云计算环境下保持边界域划分的知识约简算法框架模型,在Hadoop平台上构建了云计算环境并进行了相关实验。实验结果表明该知识约简算法可以处理海量数据集。 相似文献
3.
4.
研究朴素贝叶斯算法MapReduce的并行实现方法, 针对传统单点串行算法在面对大规模数据或者参与分类的属性较多时效率低甚至无力承载大规模运算, 以及难以满足人们处理海量数据的需求等问题, 本文在朴素贝叶斯基本理论和MapReduce框架的基础上, 提出了一种基于MapReduce的高效、廉价的并行化方法. 通过实验表明这种方法在面对大规模数据时能有效提高算法的效率, 满足人们处理海量数据的需求. 相似文献
5.
从粗糙集理论出发,在可分辨关系和对象差异矩阵概念的基础上构造出基于粗糙集理论的并行约简算法。算法首先将原系统划分为多个子系统,然后利用评价指数对划分得到的子系统并行求解,最后以子系统的局部约简结果为基础,求得原系统的约简。算法的时空性能较好,适于处理大规模数据集。 相似文献
6.
面向大规模的数据进行知识约简是近年来粗糙集理论研究的热点。传统不完备信息系统的知识约简是假设在初始时将所有需要处理的数据一次性地装入内存中,这明显不适合处理海量数据,更不适合处理含有缺失信息的海量数据。为此,深入剖析了带有缺失信息的数据特征,把缺失属性的值用该属性所有可能的取值表示,并结合知识约简算法中的可并行性,从属性(集)的可辨识性和不可辨识性出发,并在MapReduce框架下设计了可用来处理不完备信息系统的知识约简算法。实验结果表明,该算法是有效可行的,能够对不完备信息系统中的海量数据进行知识约简。 相似文献
7.
k-modes是一种代表性的分类数据的聚类算法.首先对k-modes聚类算法的实现过程进行了改进:通过在分配数据对象到簇时更新这个簇中各个属性项的次数,使得在遍历一次全部数据对象就能计算出新的簇中心.为了使k-modes能够处理大规模分类数据,在Hadoop平台上用MapReduce并行计算模型实现了k-modes算法.实验表明:在处理大量数据时,并行k-modes比串行k-modes极大地缩短了聚类时间,取得了较好的加速比. 相似文献
8.
9.
基于并行协同进化的属性约简 总被引:13,自引:0,他引:13
提出一种求属性集合最小约简的新方法,即基于并行协同进化的属性约简方法.该方法将并行遗传算法和协同进化算法相结合,能有效地处理具有大量属性的信息系统.对各类实验数据的测试表明,该方法得到的属性约简量与基于属性重要性的约简方法相似,在某些情况下求得最小约简的可能性要高于属性重要性方法. 相似文献
10.
MIC是一种分析变量之间可能存在的关系的方法。该方法不仅能够有效识别出变量间各种复杂类型的关系,还能够准确描述噪音数据对存在关系的影响,对探索大数据集中变量之间的关系具有重要意义。针对该方法在处理包含大量变量的数据集时性能方面的不足,首次对它进行了基于MapReduce模型的并行化。提出的并行化方法首先对原算法进行更细颗粒度的划分,然后采用一种基于Map-Reduce-Map任务链的并行模型,该模型不仅有效地增加了并行的计算单元,还大大地降低了不必要的系统开销。最后,通过理论分析和实验验证得出,改进后的算法与原算法相比,在准确率方面具有等效性,运行速度大幅度提升且具有良好的可扩展性;实验同时指出了算法性能的提升与系统资源的关系。 相似文献
11.
一种基于粗糙熵的知识约简算法 总被引:7,自引:1,他引:7
李鸿 《计算机工程与应用》2005,41(14):78-80,148
描述了知识的粗糙性,提出了知识的粗糙熵概念,建立了信息系统中知识与粗糙熵之间的关系,并通过知识的粗糙熵对属性的重要性进行了定义。在此基础上,提出了基于粗糙熵的知识约简算法,该算法的时间复杂性为O(|R|3|U|2)。通过例子分析,表明该算法是有效的。 相似文献
12.
一种面向个性化知识发现的属性约简算法 总被引:3,自引:0,他引:3
在同一决策系统中,可提取满足多种不同应用的知识.但对一既定用户,不是所有知识都是必要的.如何发现仅对用户有价值的知识(称为个性化知识),是一个挑战性的研究课题.为此,设计了一种面向个性化知识发现的属性约简算法.其特点是,逐步构建分辨集,以取代分辨矩阵;然后通过有关覆盖理论,在分辨集中计算用户最需要的约简.有效减少时间和空间复杂度,提高算法的效率.文中给出了实验分析与对比,证实了算法的有效性和可行性. 相似文献
13.
14.
给出了基于正区域的决策表知识约简的定义和算法,针对此算法的不足,提出了算法改进以完成包含大量条件属性的约简。通过其在电器销售系统中的应用,去除冗余或不相关的条件属性,大大减少了要处理的数据量,简化了决策信息系统。 相似文献
15.
16.
一种基于知识量的约简算法 总被引:1,自引:0,他引:1
提出一种新的属性约简算法,该算法基于粗糙集理论认为知识是区分事物的能力的观点,对知识进行了新的量化,并以量化后的区分能力作为启发式信息进行约简,提高了约简效率,理论分析与实例证明该算法是有效的. 相似文献
17.
面对大数据规模庞大且计算复杂等问题,基于MapReduce框架采用两阶段渐进式的聚类思想,提出了改进的K-means并行化计算的大数据聚类方法。第一阶段,该算法通过Canopy算法初始化划分聚类中心,从而迅速获取粗精度的聚类中心点;第二阶段,基于MapReduce框架提出了并行化计算方案,使每个数据点围绕其邻近的Canopy中心进行细化的聚类或合并,从而对大数据实现快速、准确地聚类分析。在MapReduce并行框架上进行算法验证,实验结果表明,所提算法能够有效地提升并行计算效率,减少计算时间,并提升大数据的聚类精度。 相似文献
18.
基于绝对信息量的知识约简算法 总被引:1,自引:0,他引:1
粗糙集理论是一种新的处理模糊和不确定知识的数学工具。知识约简是粗糙集理论研究中的重要内容之一,现已证明寻找信息系统的最小约简是NP-hard问题。文中提出一个基于绝对信息量的知识约简的启发式算法,该算法的时间复杂性为O(|R|^3 |U|^2)。通过例子分析,表明该算法是有效的。 相似文献
19.
日益复杂和动态变化的海量数据处理,是当前人们普遍关注的问题,其核心内容之一是研究如何利用已有的信息实现快速的知识更新.粒计算是近年来新兴的一个研究领域,是信息处理的一种新的概念和计算范式,主要用于描述和处理不确定的、模糊的、不完整的和海量的信息,以及提供一种基于粒与粒间关系的问题求解方法.作为粒计算理论中的一个重要组成部分,粗糙集是一种处理不确定性和不精确性问题的有效数学工具.根据云计算中的并行模型MapReduce,给出了并行计算粗糙集中等价类、决策类和两者之间相关性的算法;然后,设计了用于处理大规模数据的并行粗糙近似集求解算法.为应对动态变化的海量数据,结合MapReduce模型和增量更新方法,根据不同的增量策略,设计了两种并行增量更新粗糙近似集的算法.实验结果表明,该算法可以有效地快速更新知识;而且数据量越大,效果越明显. 相似文献