首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
MapReduce分布式计算框架有助于提升大规模数据连接查询的效率,但当连接属性分布不均匀时,其简单的散列策略容易导致计算节点间负载不均衡,影响作业的整体性能。针对连接查询操作中的数据倾斜问题,研究了MapReduce框架下大规模数据连接查询操作的优化算法。首先对经典的改进重分区连接查询算法进行实验分析,研究了传统MapReduce计算框架下连接查询操作的执行流程,找出了基于MapReduce计算框架的连接查询算法在数据分布不均匀时的性能瓶颈;进而提出了组合分割平衡分区优化策略,设计并实现了基于组合分割平衡分区优化策略的改进型连接查询算法。实验结果表明,提出的优化策略在大规模数据的连接查询处理上很好地解决了数据倾斜带来的性能影响,具有好的时间性能和可扩展性。  相似文献   

2.
极端学习机(ELM)以其快速高效和良好的泛化能力在模式识别领域得到了广泛应用。然而当前的ELM及其改进算法并没有充分考虑到隐层节点输出矩阵对极端学习机泛化能力的影响。通过实验发现激活函数选取不当及数据维数过高将导致隐层节点输出值趋于零,使得输出权值矩阵求解不准,降低ELM的分类性能。为此,提出一种微分同胚优化的极端学习机算法。该算法结合降维和微分同胚技术提高激活函数的鲁棒性,克服隐层节点输出值趋于零的问题。为验证所提算法的有效性使用人脸数据进行实验。实验结果表明所提算法具有良好的泛化性能。  相似文献   

3.
极端学习机因其学习速度快、泛化性能强等优点,在当今模式识别领域中已经成为了主流的研究方向;但是,由于该算法稳定性差,往往易受数据集中噪声的干扰,在实际应用中导致得到的分类效果不是很显著;因此,为了提高极端学习机分类的准确性,针对数据集样本中带有噪声和离群点问题,提出了一种基于角度优化的鲁棒极端学习机算法;该方法利用鲁棒激活函数角度优化的原则,首先降低了离群点对分类算法的影响,从而保持数据样本的全局结构信息,达到更好的去噪效果;其次,有效的避免隐层节点输出矩阵求解不准的问题,进一步增强极端学习机的泛化性能;通过应用在普遍图像数据库上的实验结果表明,这种提出的算法与其他算法相比具有更强的鲁棒性和较高的识别率。  相似文献   

4.
针对在线学习中极限学习机需要事先确定模型结构的问题,提出了兼顾数据增量和结构变化的在线极限学习机算法。算法于在线序列化极限学习机的基础上,通过误差变化判断是否新增节点,并利用分块矩阵的广义逆矩阵对新增节点后的模型进行更新,使模型保持较高正确率。通过在不同类型和大小的数据集上的实验表明,所提算法相较于经典极限学习机及其在线和增量学习版本都具有较好的分类和回归准确率,能够适应不同类型的数据分析任务。  相似文献   

5.
目前的矩阵乘法算法无法处理大规模和超大规模的矩阵,而随着MapReduce编程框架的提出,并行处理矩阵乘法成为解决大矩阵运算的主要手段。总结了矩阵乘法在MapReduce编程模型上的并行实现方法,并提出了实现高性能大矩阵乘法的策略——折中单个工作节点的计算量和需要网络传输的数据量。实验证明,并行实现算法在大矩阵上明显优于传统的单机算法,而且随着集群中节点数目的增多,并行算法会表现出更好的性能。  相似文献   

6.
针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有面向大数据的计算框架。首先,基于朴素贝叶斯文本分类模型将训练样本数据集分为◢m◣类;进一步在训练阶段中,将前一个MapReduce的输出作为后一个MapReduce的输入,采用四个MapReduce作业得出模型。该设计过程充分利用了MapReduce的并行优势,最后在分类器测试时取出最大值所属的类标签值。在Newgroups数据集进行实验,在所有五类新闻数据组上的分类都取得了99%以上的结果,并且均高于对比算法,证明了提出方法的准确性。  相似文献   

7.
矩阵乘法是线性代数和图算法中非常重要的一个基本操作,而大规模数据处理中的矩阵往往是稀疏矩阵。MapReduce编程框架能够有效地支持海量数据的分布式计算。因此,对如何运用MapReduce编程框架实现超大规模稀疏矩阵的乘法进行了研究。传统矩阵乘法并行算法没有针对稀疏矩阵进行专门优化,导致计算过程中出现大量不必要的通信开销。提出了一种新的算法--CRM(column row multiplication)算法,并与传统的矩阵分块算法进行了比较。实验证明,CRM算法运行效率有很大的提高,并且具有高度的可伸缩性,适合在MapReduce平台上运行。  相似文献   

8.
玻璃检测速度的的提高会在短时间会产生大量图像数据,传统分布式框架MapReduce处理速度和及时性无法满足玻璃缺陷检测的要求。课题将MapReduce分布式框架运用到海量图像处理,设计阈值分割算法完成对玻璃缺陷图像的处理。通过添加数据划分模块使计算与存储本地化,加快数据处理的及时性。实验结果表明改进的MapReduce计算框架处理速度平均提高14.1%,能够对运行速度为600m/h的玻璃带进行在线检测,并检测出玻璃带上缺陷的个数、位置和缺陷的类型。  相似文献   

9.
大数据分析中基于MapReduce的空间权重创建方法研究   总被引:1,自引:0,他引:1  
大数据空间分析是Cyber-GIS的重要方面。然而,如何利用现有的网络基础设施(比如大规模计算集群)对大数据进行并行分布式空间分析仍然是一大难题。为此,本文提出一种基于MapReduce的空间权重创建方法。该方法依托Hadoop框架组织计算资源,基于MapReduce模式从大规模空间数据集中高效创建出空间权重:大空间数据首先被分为多个数据块,然后将映射器分布给计算集群中的不同节点,以便在数据中寻找出空间对象的相邻对象,最后由约简器从不同节点处收集相关结果并生成权重文件。利用Amazon公司弹性MapReduce的Hadoop框架,从人工空间数据中创建基于邻近概念的权重矩阵进行仿真,实验结果表明,本文方法的性能优于传统方法,解决了大数据的空间权重创建问题。  相似文献   

10.
针对传统的稀疏表示字典学习图像分类方法在大规模分布式环境下效率低下的问题,设计一种基于稀疏表示全局字典的图像学习方法。将传统的字典学习步骤分布到并行节点上,使用凸优化方法在节点上学习局部字典并实时更新全局字典,从而提高字典学习效率和大规模数据的分类效率。最后在MapReduce平台上进行并行化实验,结果显示该方法在不影响分类精度的情况下对大规模分布式数据的分类有明显的加速,可以更高效地运用于各种大规模图像分类任务中。  相似文献   

11.
韩伟  张学庆  陈旸 《计算机应用》2014,34(6):1600-1603
针对现有的方法不能有效用于图像大数据分类的问题,提出了一种基于MapReduce编程模型的图像分类方法,在分类的全过程利用MapReduce机制加速分类过程。首先,利用MapReduce机制实现对图像尺度不变特征变换(SIFT)特征的分布式提取,并通过稀疏编码将其转换为稀疏向量,生成图像的稀疏特征;然后,利用MapReduce机制实现对随机森林的分布式训练;在此基础上,利用MapReduce机制对图像集实现基于随机森林方法的并行分类。通过在Hadoop平台的实验结果表明,该方法能够充分利用MapReduce框架的分布式特性,对大规模图像数据实现快速准确分类。  相似文献   

12.
动态数据存在数据量动态改变,数据类别分布非平衡、不稳定等问题,这些问题成为分类的难点。针对该问题,通过对在线极端学习机模型进行拓展,提出鲁棒的权值在线极端学习机算法。为解决动态数据非平衡性,该算法借助代价敏感学习理论生成局部动态权值矩阵,从而优化分类模型产生的经验风险。同时,算法进一步考虑动态数据由于时序性质改变造成的数据分布变化,而引入遗忘因子增强分类器对数据分布变更的敏感性。算法在不同数据分布的24个非平衡动态数据集上测试,取得了较好的效果。  相似文献   

13.
由于数据规模的快速增长,高效用序列模式挖掘算法效率严重下降.针对这种情况,提出基于MapReduce的高效用序列模式挖掘算法HusMaR.算法基于MapReduce框架,使用效用矩阵高效地生成候选项;使用随机映射策略均衡计算资源;使用基于领域的剪枝策略来防止组合爆炸.实验结果表明,在大规模数据集下,算法取得了较高的并行效率.  相似文献   

14.
重点研究了极限学习机ELM对行为识别检测的效果。针对在线学习和行为分类上存在计算复杂性和时间消耗大的问题,提出了一种新的行为识别学习算法(ELM-Cholesky)。该算法首先引入了基于Cholesky分解求ELM的方法,接着依据在线学习期间核函数矩阵的更新特点,将分块矩阵Cholesky分解算法用于ELM的在线求解,使三角因子矩阵实现在线更新,从而得出一种新的ELM-Cholesky在线学习算法。新算法充分利用了历史训练数据,降低了计算的复杂性,提高了行为识别的准确率。最后,在基准数据库上采用该算法进行了大量实验,实验结果表明了这种在线学习算法的有效性。  相似文献   

15.
左鹏玉  周洁  王士同   《智能系统学报》2020,15(3):520-527
针对在线序列极限学习机对于类别不平衡数据的学习效率低、分类准确率差的问题,提出了面对类别不平衡的增量在线序列极限学习机(IOS-ELM)。该算法根据类别不平衡比例调整平衡因子,利用分块矩阵的广义逆矩阵对隐含层节点数进行寻优,提高了模型对类别不平衡数据的在线处理能力,最后通过14个二类和多类不平衡数据集对该算法有效性和可行性进行验证。实验结果表明:该算法与同类其他算法相比具有更好的泛化性和准确率,适用于类别不平衡场景下的在线学习。  相似文献   

16.
近年来,局部二值模式(Local Binary Patterns,LBP)由于其在空间特征提取方面具有显著的优势被应用于高光谱遥感图像分类中,该算法在空间特征提取上虽减少类内方差,却忽视了用于区分不同地物类别的光谱特征。为避免在图像分类过程中提取单一特征导致特征提取不充分、分类效果不理想的问题,通过将空间特征和光谱特征进行矢量堆叠得到新的空谱特征向量。再将新的空谱特征向量引入到核极端学习机中,提出一种基于空谱特征的核极端学习机高光谱遥感图像分类算法(Space Spectrum feature Kernel Extreme Learning Machine,SS-KELM)。为验证所提算法的有效性,将使用两个高光谱图像数据集进行实验。实验结果表明所提SS-KELM算法的分类性能优于目前较为常见的传统分类算法。  相似文献   

17.
连接操作是大规模数据集在数据分析应用中最常用的操作,针对MapReduce自身不能有效地处理数据倾斜情况下的连接操作,提出了基于MapReduce的频次分类连接算法。根据数据在连接数据集中出现的频率将整个数据集分为3类,对倾斜数据利用分区算法和广播算法实现数据重分布,以消除数据倾斜的影响;对非倾斜数据采用Hash算法实现数据重分布。重分布后的数据在单节点内即可完成数据连接操作,避免了MapReduce框架下连接操作的跨节点传输代价;同时有效地均衡了MapReduce各节点的任务负载,从而提高了数据倾斜状态下连接操作的效率。通过与传统连接算法的对比,证明了所提算法的有效性和实用性。  相似文献   

18.
随着用户数量与数据体量的飞速增长,传统基于相似性矩阵构造的协同过滤算法求解效率低下.针对这一问题,提出一种基于MapReduce框架下的并行相似矩阵构造算法.依据基于改进的局部敏感哈希(locality sensitive Hashing,LSH)算法将项目集合划分为不相交的组,基于MapReduce框架进行组内部相似度和组间相似度计算,采用MovieLens数据集进行算例实验对比.实验结果表明,与传统串行和两轮次MapReduce构造方法相比,在相同的实验条件下,所提方法的平均执行时间分别节约26.4%和14.4%以上.所提方法在大规模数据集场景下具有更好的经济性与扩展性,改进的LSH算法有效提升了后续轮次的计算效率.  相似文献   

19.
针对传统极端学习机输入权值与隐层阈值随机设定的问题,提出了输出值反向分配算法。算法在传统极端学习机的基础上,通过优化方法得到最优输出值分配系数,并利用最小二乘法确定网络输入参数。将该算法应用到常用数据集进行实验,并与其他极端学习机改进算法进行比较,显示该算法有良好的学习以及泛化能力,能够得到简单的网络结构,证明了算法的有效性。  相似文献   

20.
郭威  徐涛  于建江  汤克明 《控制与决策》2017,32(9):1556-1564
针对大规模在线学习问题,提出一种二维分割贯序正则化超限学习机(BP-SRELM).BP-SRELM以在线贯序超限学习机为基础,结合分治策略的思想,从实例和特征两个维度对高维隐层输出矩阵进行分割,以降低问题求解的规模和计算复杂性,从而极大地提高对大规模学习问题的执行效率.同时,BP-SRELM通过融合使用Tikhonov正则化技术进一步增强其在实际应用中的稳定性和泛化能力.实验结果表明,所提出的BP-SRELM不仅具有更高的稳定性和预测精度,而且在学习速度上优势明显,适用于大规模数据流的在线学习与实时建模.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号