首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 281 毫秒
1.
针对Slope One算法存在预测精度依赖于用户对待预测项目的评分数量的缺陷,提出了一种基于项目属性相似度和MapReduce并行化的Slope One算法。首先计算项目间的属性相似度,并将其与Slope One算法相融合以提高预测精度,然后在Hadoop平台上对改进算法基于MapReduce进行并行化实现。在MovieLens数据集上的实验结果表明,相对于Slope One算法和加权Slope One算法,本文提出的改进Slope One算法具有更高的预测精度,并更适用于大规模数据集。  相似文献   

2.
针对协同过滤算法的推荐精度不足问题,提出一种改进的Slope One算法。以基于用户协同过滤算法为前提,使用皮尔逊相似性计算用户间相似度,利用Top-N方法对相似用户进行筛选,把最相似用户作为邻居集,再结合加权Slope One算法,预测项目评分,实现对用户个性化精准推荐。实验结果表明,在数据稀疏的条件下,改进算法的预测精确度优于基于用户的协同过滤算法和Slope One算法,提高了推荐质量。  相似文献   

3.
针对协同过滤推荐算法中Slope One算法在稀疏数据集中推荐精度低的问题,利用矩阵分解在解决矩阵稀疏性方面的优势,将非负矩阵分解技术引入到用户-项目评分矩阵的降维处理中,将原有的稀疏评分矩阵进行非负分解,改善了矩阵的稀疏性,优化Slope One算法. 从实验数据可以看出,与原始的CF算法进行比较,NMF-Slope One算法有较好的推荐效果. 在数据稀疏的条件下,确定参数进行实验. 实验结果表明,该方法提高了Slope One算法在数据稀疏下的精度和推荐质量.  相似文献   

4.
推荐算法是数据挖掘中较为重要的算法之一,在如今的互联网发展中被广泛使用。而基于Spark Mllib平台上使用的ALS协同过滤算法在个性化推荐系统中发挥着重要作用,但由于Spark复杂的内核架构与其基于内存计算的特点,想通过Spark实现高性能的推荐系统,还存在着诸多问题需要研究。针对基于ALS模型的协同过滤算法及用来实现该算法的Spark计算技术进行分析与优化,经过资源优化后,缩短了推荐所用的时间,其性能提升了33.3%;在资源优化的基础上再经过Spark Shuffle优化,优化后的性能与无优化时相比,其性能提升了54.8%。  相似文献   

5.
针对Spark平台的弹性分布式数据集并行计算框架机制,提出一种在线连续极限学习机并行处理的改进算法。利用分离在线连续极限学习机矩阵之间的依赖关系,将大规模数据中的高度复杂的矩阵分布到Spark集群中并行化计算,并行计算多个增量数据块的隐藏层输出矩阵,实现OS-ELM对矩阵的加速求解。实验结果表明,该算法在保持精度的同时可有效缩短学习时间,改善了大数据的扩展能力。  相似文献   

6.
稀疏线性( SLIM)推荐算法侧重于通过挖掘物品与物品之间的关系进而产生推荐结果。为了提高推荐质量,借鉴了SLIM算法和协同过滤算法的思想,将用户划分为用户集合,进一步挖掘用户与用户集合之间的隐含关系,并综合考虑用户与用户相关性、用户与用户集合相关性这两个因素,提出了融合用户集合关系的稀疏线性( UCS-LIM)推荐算法。实验结果表明, UCSLIM 算法能够提高推荐结果质量。同时为了提高算法的执行效率,分别在Spark和Hadoop云计算平台上实现了UCSLIM并行推荐算法,并通过实验表明,UCSLIM的Spark版本具有更高的计算效率。  相似文献   

7.
为解决大数据量情况下的网络用户行为分析的时效性、准确性,针对Apriori算法对数据库反复扫描和候选集过大的问题,提出了一种将压缩矩阵和事务权值引入的改进型Apriori算法,并将改进后的算法运用于云计算平台Spark。实验证明,改进后的算法的性能和效率都更高,在网络用户行为分析中具有优势。  相似文献   

8.
在使用分布式内存计算的机器学习算法进行情感分析时,其训练效率还亟需提升,同时使用单个机器学习算法的准确率也不是很高,因此提出了一种基于Spark的集成算法来进行情感分析。在进行情感分析过程中通过Spark分布式内存计算,来实现算法的并行操作,有利于机器学习算法处理大数据集。Spark自带的机器学习库,使开发过程变得更加简单和快速。采用改进后的TF-IDF特征提取算法,以AdaBoost算法集成决策树和SVM,降低了单个算法的偶然性,提高了整个结果的准确性。实验结果表明:Spark分布式计算提高了效率,集成算法的情感识别更准确。  相似文献   

9.
为解决Spark任务运行过程中的性能评估与改进问题,本文提出一种基于启发式算法和支持向量机回归模型的Spark性能评价与分析方法.本文首先提出一种启发式性能评价算法,该方法采用Ganglia收集并处理Spark任务运行时的集群资源消耗数据,根据k-means算法划分任务类型,并根据任务类型确定启发式性能评价算法的评价指标和初始权重.然后,从Spark历史服务器中收集并处理任务运行效率数据,与集群资源消耗数据一并作为Spark任务运行时的状态数据.最后,根据状态数据迭代确定启发式性能评价算法的最终权重,以此建立Spark性能评价回归模型.本文随后提出一种基于支持向量机SVM回归算法(SVR)的Spark性能分析方法.该方法对Spark配置参数与整体性能建立回归模型,然后对该回归模型进行敏感度分析,找到能够影响Spark性能的重要参数.实验结果表明,启发式性能评价算法能够量化Spark任务资源消耗和运行效率等各方面性能,比较全面地评估任务的整体性能.基于SVR的性能分析方法能够比较有效地应用于Spark任务的实际分析中,形成初步的Spark任务性能调优建议.  相似文献   

10.
针对Spark计算框架处理规模急剧增长的大数据时,处理速度会明显减慢,无法满足电力大数据分析的实时性处理需求的问题,提出了一种基于GPU与Spark计算框架的电力大数据分析算法.将GPU的并行处理结合到Spark计算平台上以提升电力大数据处理的效率,并通过构建排队模型来最大化该计算框架的性能.仿真结果表明,所提出的算法具有一定的精确性和有效性,且加入GPU计算后能够明显提升数据处理速度,可以满足大规模数据处理的实时性需求.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号