首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
推荐算法是数据挖掘中最重要的算法之一.地点推荐是推荐系统的重要研究内容.针对目前地点推荐面临的数据稀疏、冷启动、个性化程度低等问题,设计并实现了基于Spark并行化处理的改进混合地点推荐模型.该算法融合了基于内容的推荐和基于协同过滤的推荐,结合了用户当前的偏好和其他用户的意见.使用基于用户-地点属性偏好的矩阵填充方式,以此改善数据稀疏性问题;同时,对于海量数据,系统采用Spark分布式集群实现并行计算,缩短了模型训练时间.实验结果表明,与其他推荐算法相比,该算法能有效改善数据稀疏性、提升推荐效果.  相似文献   

2.
在电信运营商领域,外呼推荐是一种重要的推荐产品和服务的途径。实现了一种基于运营商大数据的自动外呼推荐系统,该系统能够挖掘用户的行为特征并且使用机器学习的方法预测用户对于被推荐产品的接受可能性。传统推荐系统使用的模型算法为矩阵分解、大规模稀疏特征分类、神经网络等。采用随机森林算法的主要原因是随机森林具有并行化程度高、训练速度快、生成的决策树可解释等诸多优点,适合于基于电信业数据的推荐系统。该外呼推荐系统基于Hadoop、Impala和Spark等大数据处理平台及工具,使用随机森林分类器作为核心算法,将用户最近的行为特征回归为接受外呼推荐产品的可能性。在线测试表明使用该系统与当前部署的人工随机外呼相比,能够提升约41%的用户接受率;同时,根据模型算法输出特征的重要性,进一步给出了两类用户的特征分析。  相似文献   

3.
针对原始Slope One算法计算推荐预测值时忽略了项目之间的相似性,以及大数据时代下推荐效率低下的问题,提出基于Spark平台的聚类加权Slope One推荐算法。通过Canopy-K-medoids聚类算法生成最近邻居集合;在最近邻集中用Slope One算法上加权项目之间的相似性进行推荐预测;在Spark平台上实现并行化。通过在电影数据集上的实验得出,基于Spark平台的优化算法与传统Slope One算法、加权项目相似度的Slope One算法相比,提高了推荐精度。  相似文献   

4.
响应速度较慢和推荐内容与用户上下文信息匹配程度低是当前影片推荐系统迫切需要解决的问题。针对上述挑战,提出Spark平台下基于上下文信息的影片混合推荐方法。它利用分布式并行计算技术Spark进行加速,来提高系统对于海量数据的检索与计算速度,从而减少了系统响应时间。同时该方法将“上下文推荐”和“交替最小二乘的协同过滤(ALS)”融合成一种混合推荐方法,提高了系统的推荐精度。实验结果表明,所提出的混合推荐方法有不错的效果。  相似文献   

5.
基于Spark的矩阵分解推荐算法   总被引:1,自引:0,他引:1  
郑凤飞  黄文培  贾明正 《计算机应用》2015,35(10):2781-2783
针对传统矩阵分解算法在处理海量数据信息时所面临的处理速度和计算资源的瓶颈问题,利用Spark在内存计算和迭代计算上的优势,提出了Spark框架下的矩阵分解并行化算法。首先,依据历史数据矩阵初始化用户因子矩阵和项目因子矩阵;其次,迭代更新因子矩阵,将迭代结果置于内存中作为下次迭代的输入;最后,迭代结束时得到矩阵推荐模型。通过在GroupLens网站上提供的MovieLens数据集上的实验结果表明,加速比(Speedup)值达到了线性的结果,该算法可以提高协同过滤推荐算法在大数据规模下的执行效率。  相似文献   

6.
协同过滤推荐算法在推荐系统中发挥着重要作用,但其存在执行效率与排名精度较低的问题,交替最小二乘(ALS)算法可实现并行计算,从而提高执行效率,但是该算法数据加载与迭代收敛的时间较长。为此,将非线性共轭梯度(NCG)算法与ALS算法相结合,提出一种ALS-NCG算法,以达到加速ALS算法的目的。在Spark分布式数据处理环境中对ALS-NCG算法进行性能评估,实验结果表明,相比ALS算法,ALS-NCG算法获取高精度推荐排名时需要的迭代次数与时间更少。  相似文献   

7.
Zhang  Hao  Huang  Tao  Lv  Zhihan  Liu  SanYa  Zhou  Zhili 《Multimedia Tools and Applications》2018,77(6):7051-7069

With the popularization development of MOOC platform, the number of online courses grows rapidly. Efficient and appropriate course recommendation can improve learning efficiency. Traditional recommendation system is applied to the closed educational environment in which the quantity of courses and users is relatively stable. Recommendation model and algorithm cannot directly be applied to MOOC platform efficiently. With the light of the characteristics of MOOC platform, MCRS proposed in this paper has made great improvement in the course recommendation model and recommendation algorithm. MCRS is based on distributed computation framework. The basic algorithm of MCRS is distributed association rules mining algorithm, which based on the improvement of Apriori algorithm. In addition, it is useful to mine the hidden courses rules in course enrollment data. Firstly, the data is pre-processed into a standard form by Hadoop. It aims to improve the efficiency of the basic algorithm. Then it mines association rules of the standard data by Spark. Consequently, course recommendation information is transferred into MySQL through Sqoop, which makes timely feedback and improves user’s courses retrieval efficiency. Finally, to validate the efficiency of MCRS, a series of experiments are carried out on Hadoop and Spark, and the results shows that MCRS is more efficient than traditional Apriori algorithm and Apriori algorithm based on Hadoop, and the MCRS is suitable for current MOOC platform.

  相似文献   

8.
随着互联网数据量的不断膨胀,单机已经无法在可接受的时间范围内计算完基于大规模数据的推荐算法,也无法存放海量的数据。利用Spark平台内存计算的优点,设计了一种分布式的基于项目的协同过滤算法,利用Spark提供的RDD(resilient distributed dataset)算子完成算法的设计。针对由于数据稀疏而导致的相似度计算不准确的问题,提出了一种利用两项目间公共用户数目进行加权的相似度计算公式,提高了最终推荐结果的准确度。为了改善计算中涉及到的数据表等值连接操作耗时太长的问题,利用自定义的Hash_join函数替代Spark自带的连接操作算子,提高了计算效率。采用UCI的公用数据集MovieLens对算法进行测试,并分别与改进前的算法以及单机运行的算法进行对比,结果表明,改进的算法在准确度和效率方面都有更好的表现。  相似文献   

9.
黄亚坤  王杨  王明星 《计算机应用》2017,37(9):2671-2677
个性化推荐作为一种有效的信息获取手段已成功应用于电商、音乐和电影等领域。已有研究多数聚焦于推荐的精度,缺乏对推荐结果的多样性考虑,忽略了应用领域中被推荐项目的流程特性(如"互联网+政务"中办事项的推荐)。为此提出一种综合用户社区与关联序列挖掘(CAS-UC)的电子政务推荐算法,优先向用户推送利益关联最大的办事项。首先,对用户和办事项的静态基本属性以及动态行为属性分别进行特征建模;其次,基于用户的历史办事记录和属性相似度进行用户社区发现,预筛选出与目标用户最为相似的用户集,提高推荐结果的多样性,减少核心推荐过程的计算量;最后,办事项的关联序列挖掘充分考虑了电子政务的业务特性,加入时间维度的办事项序列挖掘,进一步提高了推荐结果的精度。以芜湖市易户网为平台载体,基于Spark计算平台对用户脱敏后的信息进行仿真,实验结果表明,CAS-UC适用于被推荐项目具有序列或流程特性领域的推荐,与传统推荐算法如协同过滤推荐、矩阵分解以及基于语义相似度的推荐算法相比,具有更高的推荐精度,用户的多社区归属因素增加了推荐结果的多样性。  相似文献   

10.
针对传统Slope One算法在相似性计算时未考虑项目属性信息和时间因素对项目相似性计算的影响,以及推荐在当前大数据背景下面临的计算复杂度高、处理速度慢的问题,提出了一种基于聚类和Spark框架的加权Slope One算法。首先,将时间权重加入到传统的项目评分相似性计算中,并引入项目属性相似性生成项目综合相似度;然后,结合Canopy-K-means聚类算法生成最近邻居集;最后,利用Spark计算框架对数据进行分区迭代计算,实现该算法的并行化。实验结果表明,基于Spark框架的改进算法与传统Slope One算法、基于用户相似性的加权Slope One算法相比,评分预测准确性更高,较Hadoop平台下的运行效率平均可提高3.5~5倍,更适合应用于大规模数据集的推荐。  相似文献   

11.
郝秦霞 《计算机应用》2005,40(10):2951-2959
针对高等教育新形态下网络教学平台缺乏精准推荐选课问题,提出了一种基于高维多目标进化算法的课程引导、推荐式选课方法。首先为节省存储空间设计了多维事实数据仓库模型,并对课程、学生、教师、课程难度、课程推荐指数等数据仓库中的相关属性进行形式化定义以及规约处理;其次构建了基于R2的高维多目标差分进化(R2-MODE)算法的推荐式选课模型,算法改善了高维复杂空间中的搜索能力;最终实现对课程教师专业度、课程的专业相关度、课程难度系数、课程综合评价这4项性能的同时最优化。实验结果表明,所提算法与基于参考点的NSGA-Ⅲ相比,在收敛性上提高了50%,与基于支配关系的ε-MOEA相比,在分布性上提高了5%,所设计的方法在数据集的收敛性和分布性上整体效果最优。实验中,所提算法成功实现了根据学生个体的特征、意愿来进行的课程的精准推荐,为网络平台精准引导、推荐课程选择提供了必要的理论支持,为智能选课提供了一种新的方法。  相似文献   

12.
随着电子商务的发展,基于协同过滤的推荐算法越来越受欢迎,与此同时,该算法的缺陷也越来越明显,如数据稀疏性、系统可扩展性等。另外传统的单机计算模型也难以满足海量数据的实时推荐需求。为此,提出一种利用Spark计算模型实现分布式推荐的方法。该推荐方法采用基于谱聚类和朴素贝叶斯的混合推荐算法,同时使用增量式更新,在不全部重新训练模型的基础上,对模型进行局部修改。实验结果表明,较传统的单机模式推荐算法,基于Spark计算模型的分布式推荐算法,在一定程度上克服了数据稀疏性,提高了系统的可扩展性,降低了系统的响应时间。  相似文献   

13.
郝秦霞 《计算机应用》2020,40(10):2951-2959
针对高等教育新形态下网络教学平台缺乏精准推荐选课问题,提出了一种基于高维多目标进化算法的课程引导、推荐式选课方法。首先为节省存储空间设计了多维事实数据仓库模型,并对课程、学生、教师、课程难度、课程推荐指数等数据仓库中的相关属性进行形式化定义以及规约处理;其次构建了基于R2的高维多目标差分进化(R2-MODE)算法的推荐式选课模型,算法改善了高维复杂空间中的搜索能力;最终实现对课程教师专业度、课程的专业相关度、课程难度系数、课程综合评价这4项性能的同时最优化。实验结果表明,所提算法与基于参考点的NSGA-Ⅲ相比,在收敛性上提高了50%,与基于支配关系的ε-MOEA相比,在分布性上提高了5%,所设计的方法在数据集的收敛性和分布性上整体效果最优。实验中,所提算法成功实现了根据学生个体的特征、意愿来进行的课程的精准推荐,为网络平台精准引导、推荐课程选择提供了必要的理论支持,为智能选课提供了一种新的方法。  相似文献   

14.
In recent years blog-assisted learning has been used widely in higher education for improving writing and collaboratively sharing work online. However, methods for gathering useful information to be used as auxiliary-learning materials from the multitude of blog articles in the blogosphere has been seldom investigated. This paper proposes an individualized blog article recommendation mechanism to provide quality blog articles that accord with users’ learning topics. First, an IR-based technique was applied to extract and score index terms. The top three index terms were then entered into Google’s blog search engine to find the raw recommended blog articles. To avoid the situation where frequent topic-changing leads to a deficiency of article data on a specific learning topic, a forgetting rate was employed to simulate the phenomenon of changing learning topics. Subsequently, an extended Serial Blog Article Composition Particle Swarm Optimization (SBACPSO) algorithm was employed to provide optimal recommended materials to users. We evaluated the system’s performance to find the appropriate article population size. Finally, user satisfaction regarding both the system and recommended content were gauged to find the system’s limitations and possible improvements. This study is of importance in that it provides users with dynamic blog article recommendation, improved online information discovery skills and opportunities to socialize with other bloggers.  相似文献   

15.
石进平  李劲  和凤珍 《计算机科学》2018,45(Z6):423-427
以协同过滤为代表的传统推荐算法能够为用户提供准确率较高的推荐列表,但忽略了推荐系统中另外一个重要的衡量标准:多样性。随着社交网络的日益发展,大量冗余和重复的信息充斥其间,信息过载使得快速、有效地发现用户的兴趣爱好变得更加困难。针对某个用户推荐最能满足其兴趣爱好的物品,需要具备显著的相关度且能覆盖用户广泛的兴趣爱好。因此,基于社交关系和用户偏好提出一种面向多样性和相关度的图排序框架。首先,引入社交关系图模型,综合考虑用户及物品之间的关系,以更好地建模它们的相关度;然后,利用线性模型融合多样性和相关性两个重要指标;最后,利用Spark GraphX并行图计算框架实现该算法,并在真实的数据集上通过实验验证所提方法的有效性和扩展性。  相似文献   

16.
廖彬  张陶  国冰磊  于炯  张旭光  刘炎 《计算机应用》2017,37(7):1900-1905
MapReduce计算场景下,复杂的大数据挖掘类算法通常需要多个MapReduce作业协作完成,但多个作业之间严重的冗余磁盘读写及重复的资源申请操作,使得算法的性能严重降低。为提高ItemBased推荐算法的计算效率,首先对MapReduce平台下ItemBased协同过滤算法存在的性能问题进行了分析;在此基础上利用Spark迭代计算及内存计算上的优势提高算法的执行效率,并实现了基于Spark平台的ItemBased推荐算法。实验结果表明:当集群节点规模分别为10与20时,算法在Spark中的运行时间分别只有MapReduce中的25.6%及30.8%,Spark平台下的算法相比MapReduce平台,执行效率整体提高3倍以上。  相似文献   

17.
随着社会进步和信息化高速发展,网络数据规模大幅度扩大,面对大规模网络数据环境,基于Hadoop和Spark设计可拓展性大数据分析系统。系统Flume模块的Source组件负责采集大数据,Sink组件将大数据传输至Kafka;分析检测模块采用Spark离线训练可扩展性数据,将训练完成的模型传输到Spark streaming中,依据训练模型特征对普通大数据分类,获取可扩展性大数据。系统软件采用ALS算法、PageRank算法得到可扩展性大数据的有效性与价值度排名,据此向用户推荐优质可扩展性大数据。实验结果显示:系统分析可拓展性大数据精准度高于90%,优于对比系统,且具备低能耗、高稳定性的优点,实际应用价值高。  相似文献   

18.
针对协同过滤算法在海量数据环境个性化推荐应用中存在的低效率问题,结合MapReduce框架特点,设计了一种应用于个性化推荐的基于位置编码的索引树(LB-Tree),创新性地将索引结构应用于个性化推荐。利用聚类资源的差异性存储策略,提升MapReduce任务处理并行性;根据聚类数据分布特征,以质心为圆心对聚类中的数据对象进行同心圆分层,并对每层采用不同长度的二进制编码来表达,将所有数据对象的编码组织成索引树结构,缩短频繁推荐的数据查找路径,达到个性化推荐时利用索引结构快速确定搜索空间的目的。与基于项目的Top-N推荐算法和基于最近邻的推荐算法(SBNM)相比,LB-Tree所需时间开销增长最慢,准确率最高,验证了方法的有效性和高效性。  相似文献   

19.
沈浅 《微型电脑应用》2011,27(12):33-35,70
目前,协同过滤技术是个性化推荐系统中广泛使用的一种技术,该技术最大的优点是对推荐对象没有特殊的要求,能够处理非结构化的复杂对象,然而算法中普遍存在的数据稀疏性、可扩展性问题影响了算法的推荐效果。本文在分析了原有算法的基础上,提出了一个改进了的算法基于平均差分的组合推荐算法,这个组合算法在一定程度上缓解了原有算法的问题,提高了推荐系统的质量。  相似文献   

20.
建立索引是提高数据库性能的一个重要方法。目前随着强化学习算法的发展,出现了一系列使用强化学习解决索引推荐问题(index selection problem,ISP)的方法。针对现有的深度强化学习索引推荐算法训练时间长,训练不够稳定的问题,提出了一个基于A2C的索引推荐算法PRELIA。该算法加入负载索引扫描行数特征矩阵,并对奖励值进行归一化处理,旨在提高索引选择的准确性和效率,减少索引空间占用。在不同数据集上的实验结果表示,该算法可以在保证与比较的算法相当的索引推荐质量同时,推荐出的索引占用更小的存储空间,同时训练时间比基线算法时间提高了4倍以上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号