首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
尹绪森 《程序员》2014,(8):108-112
7月期《Spark与MLlib:当机器学习遇见分布式系统》一文探索TSpark框架与MLlib的适配,以及MLlib中机器学习算法向量参数的模式与性能。本文则分别以推荐系统常用的交互最小二乘法(ALS)和主题模型中的隐式狄利克雷分配(LDA)两种经典算法的不同处理方法,来分析矩阵作为参数时的参数处理模式对MLlib算法带来的影响。  相似文献   

2.
尹绪森 《Internet》2014,(7):112-115
或许MateiN年只是想为Mesos这把“屠龙宝刀”的顺利测评造一条小龙出来,结果无心插柳,Spark已开始侵占Hadoop的地盘,在批处理、流计算、机器学习、图计算等领域发挥效力。本文将着重探索Spark)框架与MLlib的适配,以及MLlib中机器学习算法向量参数的模式与性能,即依托于RDD这种编程抽象,以向量为参数的机器学习算法应该怎样写才能获得最佳的处理能力。  相似文献   

3.
在分布式计算和内存为王的时代,Spark作为基于内存计算的分布式框架技术得到了前所未有的关注与应用。着重研究BIRCH算法在Spark上并行化的设计和实现,经过理论性能分析得到并行化过程中时间消耗较多的Spark转化操作,同时根据并行化BIRCH算法的有向无环图DAG,减少shuffle和磁盘读写频率,以期达到性能优化。最后,将并行化后的BIRCH算法分别与单机的BIRCH算法和MLlib中的K-Means聚类算法做了性能对比实验。实验结果表明,通过Spark对BIRCH算法并行化,其聚类质量没有明显的损失,并且获得了比较理想的运行时间和加速比。  相似文献   

4.
针对传统行为识别方法存在的数据存储空间不足、识别效率不高以及扩展性不强等问题,本文在利用空间中人体关节点数据进行人体行为表示的基础上,通过自建行为数据集结合Spark MLlib算法库的随机森林算法对行为识别进行建模。为了提升识别模型的泛化能力,本文利用Spark平台下算法的并行且快速迭代的特性,提出了一种多重随机森林的加权大数投票算法。实验结果表明,随着基分类器个数的增加,行为分类准确率显著增高,基分类器个数在5个以后行为识别准确率趋于稳定且高达95%以上。在MSR Daily 3D与MSRC-12数据集上也验证本文行为识别方法的有效性。  相似文献   

5.
K-means是经典的聚类算法,为了适应大规模数据,很多研究利用分布式计算提高其扩展性。但传统基于磁盘的分布式系统仍然存在大量I/O消耗,在基于内存的Spark系统上实现,在继承Spark平台低读写消耗和良好容错性等优点的基础上,扩展了Spark的机器学习MLlib库,在此之上增加一个索引层,引入包含多种策略的基于RDD的双级索引机制,采用新的数据划分方式,对空间距离相近的点的信息进行预处理,利用索引存储其对应的点集的概括信息,以便在K-means算法中对搜索空间剪枝,从而达到对K-means算法的优化。实验结果表明,索引层能够剪枝搜索空间达40%以上,相对无优化的分布式K-means,提升效率达21%,具有较好的可扩展性。  相似文献   

6.
基于属性加密算法因含有大量耗时的指数运算和双线性对运算,一些方案提出将加密外包给云服务器.然而这些方案并没有给出外包加密在云服务器中的并行计算方法,而且还存在用户保管私钥过多、授权中心生成用户私钥成本过大的问题.针对这些问题,提出一种基于Spark大数据平台的快速加密与共享方案.在该方案中,根据共享访问树的特点设计加密并行化算法,该算法将共享访问树的秘密值分发和叶子节点加密并行化之后交给Spark集群处理,而用户客户端对每个叶子节点仅需要一次指数运算;此外,用户私钥的属性计算也外包给Spark集群,授权中心生成一个用户私钥仅需要4次指数运算,并且用户仅需要保存一个占用空间很小的密钥子项.  相似文献   

7.
大数据时代催生了互联网流量的指数级增长,为了有效地管控网络资源,提高网络安全性,需要对网络流量进行快速、准确的分类,这就对流量分类技术的实时性提出了更高的要求。目前,国内外的网络流量分类研究大多是在单机环境下进行的,计算资源有限,难以应对高速网络中的 (准) 实时流量分类任务。本文在充分借鉴已有研究成果的基础上,吸收当前最新的思想和技术,基于Spark 平台,有机结合其流处理框架 Spark Streaming 与机器学习算法库 MLlib,提出一种大规模网络流量准实时分类方法。实验结果表明,该方法在保证高分类准确率的同时,也具有很好的实时分类能力,可以满足实际网络中流量分类任务的实时性需求。  相似文献   

8.
随着信息技术的发展,世界进入了大数据时代。为了提升移动APP用户服务质量,分析用户需求和行为特征,设计了一种移动用户行为分析系统架构。系统底层利用数据采集SDK和业务逻辑数据库,采集用户行为数据并保存,Spark平台快速清理、抽取、转换、合并和聚类数据,同时,在分析用户行为的关联性上改进Apriori算法,在APP上进行验证测试。  相似文献   

9.
郑永广  岳昆  尹子都  张学杰 《计算机应用》2017,37(11):3101-3106
针对大规模社交网络及其用户发布消息的历史数据,如何快速有效地选取具有较强信息传播能力的关键用户,提出了一种关键用户选取方法。首先,利用社交网络的结构信息,构建以用户为节点的有向图,利用用户发布消息的历史数据,基于Spark计算框架,定量计算由用户活跃度、转发交互度和信息量占比刻画的权重,从而构建社交网络的有向带权图模型;然后,借鉴PageRank算法,建立用户信息传播能力的度量机制,给出基于Spark的大规模社交网络中用户信息传播能力的计算方法;进而,给出基于Spark的d-距选取算法,通过多次迭代,使得所选取的不同关键用户的信息传播范围尽量少地重叠。建立在新浪微博数据上的实验结果表明,所提方法具有高效性、可行性和可扩展性,对于控制不良突发信息传播、社交网络舆情监控具有一定的支撑作用。  相似文献   

10.
廖彬  张陶  于炯  国冰磊  刘继 《计算机科学》2017,44(1):219-225
随着互联网用户及内容的指数级增长,大规模数据场景下的杰卡德相似系数计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适用于迭代型及交互型任务的特点,基于二维划分算法将算法从MapReduce平台移植到Spark平台;并通过参数调整、内存优化等方法进一步提高了算法的执行效率。两组数据集分别在3组不同规模的集群上的实验结果表明,与MapReduce相比,Spark平台下的算法执行效率提高了4倍以上,能耗效率提升了3倍以上。  相似文献   

11.
设计并实现基于分布式平台的大数据分析处理系统,基于Spark平台用以处理大规模时间序列数据.系统框架主要分为存储层、算子层和算法层.在存储层,系统基于HDFS和Hive完成对大规模时间序列数据的组织和索引.在算子层,系统为用户提供了Spark平台上时间序列数据常用的基本操作,并允许用户直接使用这些算子实现自定义的时间序...  相似文献   

12.
随着互联网的用户及内容呈指数级增长,大规模数据场景下的相似度计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适于迭代型及交互型任务的特点,基于二维划分算法将算法从MapReduce平台移植到Spark平台;同时,通过参数调整、内存优化等方法进一步提高算法的执行效率。通过2组数据集分别在3组不同规模的集群上的实验表明,与MapReduce相比,在Spark平台下算法的执行效率平均提高了4.715倍,平均能耗效率只有Hadoop能耗的24.86%,能耗效率提升了4倍左右。  相似文献   

13.
随着互联网数据量的不断膨胀,单机已经无法在可接受的时间范围内计算完基于大规模数据的推荐算法,也无法存放海量的数据。利用Spark平台内存计算的优点,设计了一种分布式的基于项目的协同过滤算法,利用Spark提供的RDD(resilient distributed dataset)算子完成算法的设计。针对由于数据稀疏而导致的相似度计算不准确的问题,提出了一种利用两项目间公共用户数目进行加权的相似度计算公式,提高了最终推荐结果的准确度。为了改善计算中涉及到的数据表等值连接操作耗时太长的问题,利用自定义的Hash_join函数替代Spark自带的连接操作算子,提高了计算效率。采用UCI的公用数据集MovieLens对算法进行测试,并分别与改进前的算法以及单机运行的算法进行对比,结果表明,改进的算法在准确度和效率方面都有更好的表现。  相似文献   

14.
推荐算法是数据挖掘中最重要的算法之一.地点推荐是推荐系统的重要研究内容.针对目前地点推荐面临的数据稀疏、冷启动、个性化程度低等问题,设计并实现了基于Spark并行化处理的改进混合地点推荐模型.该算法融合了基于内容的推荐和基于协同过滤的推荐,结合了用户当前的偏好和其他用户的意见.使用基于用户-地点属性偏好的矩阵填充方式,以此改善数据稀疏性问题;同时,对于海量数据,系统采用Spark分布式集群实现并行计算,缩短了模型训练时间.实验结果表明,与其他推荐算法相比,该算法能有效改善数据稀疏性、提升推荐效果.  相似文献   

15.
针对传统Slope One算法在相似性计算时未考虑项目属性信息和时间因素对项目相似性计算的影响,以及推荐在当前大数据背景下面临的计算复杂度高、处理速度慢的问题,提出了一种基于聚类和Spark框架的加权Slope One算法。首先,将时间权重加入到传统的项目评分相似性计算中,并引入项目属性相似性生成项目综合相似度;然后,结合Canopy-K-means聚类算法生成最近邻居集;最后,利用Spark计算框架对数据进行分区迭代计算,实现该算法的并行化。实验结果表明,基于Spark框架的改进算法与传统Slope One算法、基于用户相似性的加权Slope One算法相比,评分预测准确性更高,较Hadoop平台下的运行效率平均可提高3.5~5倍,更适合应用于大规模数据集的推荐。  相似文献   

16.
随着移动互联网时代的到来,越来越多的含地理位置信息的空间数据需要处理,如何在海量的空间数据中进行常见的几何查询成为一个挑战,凸包问题因其在模式识别、图像处理、统计学、地理信息系统、博弈论、图论等领域中被广泛应用成为近些年研究的一个热点。凸包问题的研究始于单机版的算法,进而过渡到Hadoop等基于硬盘的分布式系统,但是受限于单节点的计算存储能力的瓶颈以及Hadoop平台基于硬盘的特性,其计算性能尚不能达到人们的在线实时计算的需求。研究基于内存的分布式计算框架Spark下的凸包问题,给出基于Spark平台的凸包查询整体框架,框架从查询接口、语法解析和物理执行等多方面结合SparkSQL引擎。随后,给出基于Andrew单调链算法的单机算法CHStand,分析单机算法并行度上的问题后,提出基于Spark的CHSpark算法,进一步优化算法并提出一种Spark平台下的优化算法CHGeom。通过实验对比说明三种算法的相对性能提升,实验发现Spark平台下的解决方案相对传统的单机平台下的解决方案有着较大的性能提升,所提算法具有良好的拓展性和广泛的实际应用价值。  相似文献   

17.
侯伟凡  樊玮  张宇翔 《计算机应用》2017,37(12):3401-3405
Shuffle性能是影响大数据集群性能的重要指标,Spark自身的Shuffle内存分配算法试图为内存池中的每一个Task平均分配内存,但是在实验中发现,由于各Task对于内存需求的不均衡导致了内存的浪费和运行效率较低的问题。针对上述问题,提出一种改进的Spark Shuffle内存分配算法。该算法根据Task的内存申请量和历史运行数据将Task按内存需求分为大小两类,对小内存需求型Task作"分割化"处理,对大内存需求型Task基于Task溢出次数和溢出后等待时间分配内存。该算法充分利用内存池的空闲内存,可以在数据倾斜导致的Task内存需求不均衡的情况下进行Task内存分配的自适应调节。实验结果表明,改进后算法较原算法降低了Task的溢出率,减少了Task的周转时间,提高了集群的运行性能。  相似文献   

18.
为解决传统协同过滤推荐算法中存在的数据稀疏、冷启动以及推荐结果缺乏多样性等问题,提出一种融合社交网络与关键用户的协同过滤推荐算法。该算法在用户—项目评分矩阵基础上,融合用户社交网络信息得出社交信任矩阵,融合关键用户信息得出关键用户评分矩阵。利用三大评分矩阵,分配不同的权重比例,共同来预测用户对于目标项目评分。针对海量数据问题,采用Spark分布式集群实现该算法的计算并行化。实验结果表明,该算法能够有效缓解数据稀疏问题,提高处理速度和推荐准确度。  相似文献   

19.
基于Spark的分层协同过滤推荐算法   总被引:1,自引:0,他引:1  
《电子技术应用》2015,(9):135-138
协同过滤是推荐系统中最广泛使用的推荐算法。针对单机模型已经不能满足推荐系统的实时性与扩展性,提出一种基于Spark的分层协同过滤推荐算法。算法首先基于用户时间行为序列构建用户兴趣模型;其次基于RDD实现了并行化EM聚类算法,将用户划分为不同的用户簇;最后基于不同的用户簇实现了并行化Item-based协同过滤推荐算法。通过阿里巴巴天池数据集实验表明,该算法可明显减少推荐时间并提高了推荐准确度,具有良好的可扩展性。  相似文献   

20.
针对传统Slope One推荐算法在稀疏数据集上预测准确率较低的问题,提出一种基于图嵌入的加权Slope One算法。本文算法首先以融合时间信息的用户相似度为边权建立用户关联图,对该图进行图嵌入得到用户特征向量,然后基于Canopy聚类对用户进行类内加权Slope One推荐。另外,为优化算法性能,本文算法基于Spark计算框架实现。实验结果表明,对比传统的加权Slope One,本文算法在稀疏数据集和显式、隐式评分数据集上的推荐效果和评分预测准确率都更优。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号