期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	1篇
免费	0篇

专业分类

自动化技术

1篇

出版年

2020年

1篇

排序方式： 共有1条查询结果，搜索用时 15 毫秒

基于Spark框架的改进协同过滤算法

邹红旭潘冠华李吟《计算机技术与发展》2020,(5):38-42

随着互联网数据量的不断膨胀,单机已经无法在可接受的时间范围内计算完基于大规模数据的推荐算法,也无法存放海量的数据。利用Spark平台内存计算的优点,设计了一种分布式的基于项目的协同过滤算法,利用Spark提供的RDD(resilient distributed dataset)算子完成算法的设计。针对由于数据稀疏而导致的相似度计算不准确的问题,提出了一种利用两项目间公共用户数目进行加权的相似度计算公式,提高了最终推荐结果的准确度。为了改善计算中涉及到的数据表等值连接操作耗时太长的问题,利用自定义的Hash_join函数替代Spark自带的连接操作算子,提高了计算效率。采用UCI的公用数据集MovieLens对算法进行测试,并分别与改进前的算法以及单机运行的算法进行对比,结果表明,改进的算法在准确度和效率方面都有更好的表现。相似文献