首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
协同过滤推荐算法在推荐系统中发挥着重要作用,但其存在执行效率与排名精度较低的问题,交替最小二乘(ALS)算法可实现并行计算,从而提高执行效率,但是该算法数据加载与迭代收敛的时间较长。为此,将非线性共轭梯度(NCG)算法与ALS算法相结合,提出一种ALS-NCG算法,以达到加速ALS算法的目的。在Spark分布式数据处理环境中对ALS-NCG算法进行性能评估,实验结果表明,相比ALS算法,ALS-NCG算法获取高精度推荐排名时需要的迭代次数与时间更少。  相似文献   

2.
基于Spark的矩阵分解推荐算法   总被引:1,自引:0,他引:1  
郑凤飞  黄文培  贾明正 《计算机应用》2015,35(10):2781-2783
针对传统矩阵分解算法在处理海量数据信息时所面临的处理速度和计算资源的瓶颈问题,利用Spark在内存计算和迭代计算上的优势,提出了Spark框架下的矩阵分解并行化算法。首先,依据历史数据矩阵初始化用户因子矩阵和项目因子矩阵;其次,迭代更新因子矩阵,将迭代结果置于内存中作为下次迭代的输入;最后,迭代结束时得到矩阵推荐模型。通过在GroupLens网站上提供的MovieLens数据集上的实验结果表明,加速比(Speedup)值达到了线性的结果,该算法可以提高协同过滤推荐算法在大数据规模下的执行效率。  相似文献   

3.
廖彬  张陶  国冰磊  于炯  张旭光  刘炎 《计算机应用》2017,37(7):1900-1905
MapReduce计算场景下,复杂的大数据挖掘类算法通常需要多个MapReduce作业协作完成,但多个作业之间严重的冗余磁盘读写及重复的资源申请操作,使得算法的性能严重降低。为提高ItemBased推荐算法的计算效率,首先对MapReduce平台下ItemBased协同过滤算法存在的性能问题进行了分析;在此基础上利用Spark迭代计算及内存计算上的优势提高算法的执行效率,并实现了基于Spark平台的ItemBased推荐算法。实验结果表明:当集群节点规模分别为10与20时,算法在Spark中的运行时间分别只有MapReduce中的25.6%及30.8%,Spark平台下的算法相比MapReduce平台,执行效率整体提高3倍以上。  相似文献   

4.
为解决在大数据环境下,网络信息快速膨胀导致的“信息过载”问题,即用户无法从海量信息中快速准确获取有用信息。提出在基于Scala语言的Spark平台下,运用基于模型的协同过滤推荐算法,通过分析样本用户对电影的评分数据,建立电影的向量模型,最后根据与实时的用户数据的对比对用户进行电影推荐。实验结果表明基于模型的协同过滤算法的电影推荐系统能够准确地为用户推荐电影信息。  相似文献   

5.
随着电子商务的发展,基于协同过滤的推荐算法越来越受欢迎,与此同时,该算法的缺陷也越来越明显,如数据稀疏性、系统可扩展性等。另外传统的单机计算模型也难以满足海量数据的实时推荐需求。为此,提出一种利用Spark计算模型实现分布式推荐的方法。该推荐方法采用基于谱聚类和朴素贝叶斯的混合推荐算法,同时使用增量式更新,在不全部重新训练模型的基础上,对模型进行局部修改。实验结果表明,较传统的单机模式推荐算法,基于Spark计算模型的分布式推荐算法,在一定程度上克服了数据稀疏性,提高了系统的可扩展性,降低了系统的响应时间。  相似文献   

6.
随着当前移动互联网的快速发展,人们所面临的信息过载问题变得尤为严重,大数据场景下对特定用户的个性化推荐面临着巨大挑战. 为了进一步提高推荐的时效性、准确度以及缓解面临的大数据量. 提出了一种矩阵分解推荐算法在大数据环境下的优化算法模型. 该模型通过在传统矩阵分解推荐算法的基础上融合了用户以及物品的相似性计算,在训练目标函数的过程中,即融入用户以及物品的前k个最近邻居的相似性计算,增强了算法的推荐准确度. 利用Spark在内存计算以及迭代计算上的优势,设计了一种Spark框架下的矩阵分解与最近邻融合的推荐算法. 通过在经典数据集—MovieLens数据集上的实验结果表明,该算法与传统的矩阵分解推荐算法相比,可以很好的缓解数据稀疏性,提高推荐算法的准确度,并且在计算效率方面也优于现有的矩阵分解推荐算法.  相似文献   

7.
8.
随着信息技术及智能移动设备的发展和普及,广告的推送方式和投放平台呈现多样化。传统电商推荐系统的运行速度较慢,无法根据根据用户的实际需求进行推荐。实时广告推荐系统作为应对这些挑战的有效手段,成为个性化服务领域的研究热点之一。文章重点分析了基于Spark的实时广告推荐系统,以期为相关研究提供借鉴。  相似文献   

9.
通过数据分析发现海量数据中的潜在价值,能够带来巨大的收益.Spark具有良好的系统扩展性与处理性能,因而被广泛运用于大数据分析.Spark SQL是Spark最常用的编程接口.在数据分析应用中存在着大量的重复计算,这些重复计算不仅浪费系统资源,而且导致查询运行效率低.但是Spark SQL无法感知查询语句之间的重复计算.为此,提出了基于收益模型的、细粒度的自动数据重用机制Criss以减少重复计算.针对混合介质,提出了感知异构I/O性能的收益模型用于自动识别重用收益最大的算子计算结果,并采用Partition粒度的数据重用和缓存管理,以提高查询效率和缓存空间的利用率,充分发挥数据重用的优势.基于Spark SQL和TachyonFS,实现了Criss系统.实验结果表明:Criss的查询性能比原始Spark SQL提升了46%~68%.  相似文献   

10.
基于Spark的分层协同过滤推荐算法   总被引:1,自引:0,他引:1  
《电子技术应用》2015,(9):135-138
协同过滤是推荐系统中最广泛使用的推荐算法。针对单机模型已经不能满足推荐系统的实时性与扩展性,提出一种基于Spark的分层协同过滤推荐算法。算法首先基于用户时间行为序列构建用户兴趣模型;其次基于RDD实现了并行化EM聚类算法,将用户划分为不同的用户簇;最后基于不同的用户簇实现了并行化Item-based协同过滤推荐算法。通过阿里巴巴天池数据集实验表明,该算法可明显减少推荐时间并提高了推荐准确度,具有良好的可扩展性。  相似文献   

11.
推荐算法是数据挖掘中最重要的算法之一.地点推荐是推荐系统的重要研究内容.针对目前地点推荐面临的数据稀疏、冷启动、个性化程度低等问题,设计并实现了基于Spark并行化处理的改进混合地点推荐模型.该算法融合了基于内容的推荐和基于协同过滤的推荐,结合了用户当前的偏好和其他用户的意见.使用基于用户-地点属性偏好的矩阵填充方式,以此改善数据稀疏性问题;同时,对于海量数据,系统采用Spark分布式集群实现并行计算,缩短了模型训练时间.实验结果表明,与其他推荐算法相比,该算法能有效改善数据稀疏性、提升推荐效果.  相似文献   

12.
随着数据库应用系统中数据的增加,效率是将是数据库应用开发与管理过程中必须解决的主要问题。因此必须对数据库进行优化。其中既包括了对逻辑数据库设计的优化、物理数据库硬件的优化、服务器硬件平台性能的优化、以及SQL语句本身查询的优化。本文通过对SQL Server数据库应用中影响效率的主要问题进行相应的分析,给出了数据库的性能优化方法,从而提高了整个数据库的运行效率。  相似文献   

13.
高质量的决策依赖于高质量的数据,数据预处理是数据挖掘至关重要的环节.传统的数据预处理系统并不能很好的适用于大数据环境,企业现阶段主要使用Hadoop/Hive对海量数据进行预处理,但普遍存在耗时长、效率低、无交互等问题.提出了一种基于Spark的交互式数据预处理系统,系统提供一套通用的数据预处理组件,并支持组件的扩展,数据以电子表格的形式展现,系统记录用户的处理过程并支持撤销重做.本文从数据模型、数据预处理操作、交互式执行引擎以及交互式前端四个方面描述了系统架构.最后使用医疗脑卒中的真实数据对系统进行验证,实验结果表明,系统能够在大数据场景下满足交互式处理需求.  相似文献   

14.
应用SQL不仅要确保它的正确性,同时也要保证SQL有良好的执行性能。该文分析介绍了几种常用的SQL优化方法。论述了SQL Server数据库优化机制。  相似文献   

15.
16.
时睿  姚天昉 《微型电脑应用》2012,28(11):35-36,41
电子商务相对传统贸易具有成本上面的优势。随着互联网的普及,电子商务的一种重要分支,企业对个人的电子商务(BUSINESSTOCUSTOMER,B2C)被越来越多人们接受和使用。但是互联网上的信息量非常巨大,普通消费者往往不知道如何才能买到自己心仪的商品。利用WEB数据挖掘的相关技术,设计了一个可以在B2C贸易中推荐优惠商品给用户的系统。  相似文献   

17.
针对通用数据库海量数据检索速度慢的缺点,文章提出了一个数据检索优化系统.该系统通过将海量数据拆分成短语和单词,利用哈稀算法和基数排序算法,将拆分的短语和单词重新组织成词典,并对每个短语和单词建立倒排表,利用该倒排表对通用数据库中的海量数据做索引.使用这种基于倒排表的数据索引能够将数据检索速度降低到毫秒级.  相似文献   

18.
推荐系统广泛应用于人们生活的多个领域,日常生活中常见的有电商、电影、音乐和新闻推荐等.推荐系统根据用户的历史偏好主动推送相关的信息,节约了用户的时间,极大地提升了用户的体验.随着大数据技术的发展成熟,数据处理的速度变得更快.该文选取MovieLens电影数据集,并基于大数据分布式处理框架Spark和交替最小二乘法ALS...  相似文献   

19.
在大数据时代,在城市复杂交通环境中,实现实时、准确的交通流预测,是实现智能交通系统的必要前提。提出了一种在Spark平台上基于梯度优化决策树的分布式城市交通流预测模型(distributed urban traffic prediction with GBDT,DUTP-GBDT);并提出了分布式情况下梯度优化决策树模型实现的优化方法,包括切分点抽样、特征装箱和逐层训练三种,提高了分布式情况下梯度优化决策树训练效率。基于Spark分布式计算平台高效、可靠、弹性可扩展的优势,以及梯度优化决策树模型准确率较高和时间复杂度较低的优点,利用时间特征、道路状况特征以及天气特征等特征参数,建立了DUTP-GBDT模型,实现了实时、准确的交通流预测。通过与GABP、GA-KNN、MSTAR等模型的对比,证明了利用Spark平台,DUTP-GBDT模型在分布式环境下准确率和训练速度方面均有所提高,符合城市交通流预测系统的各项要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号