首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
以电影为推荐对象,选择了基于内容的推荐算法和基于协同过滤的推荐算法相结合的混合推荐算法,并在Hadoop平台下进行MapReduce并行化;通过线性组合的方式将两种推荐算法计算得到的电影相关性系数进行组合,实现本文系统的计算电影相关性的混合推荐算法,得到最终的电影相关性矩阵,构建电影关系网;最后对本文的提出的新型混合推荐算法工作模式进行了测试分析,证明改进方案具有良好的推荐精度。  相似文献   

2.
基于Hadoop平台协同过滤推荐算法   总被引:1,自引:1,他引:0  
针对协同过滤推荐算法在数据稀疏性及在大数据规模下系统可扩展性的两个问题, 在分析研究Hadoop分布式平台与协同过滤推荐算法后, 提出了一种基于Hadoop平台实现协同过滤推荐算法的优化方案. 实验证明, 在Hadoop平台上通过MapReduce结合Hbase数据库实现算法, 能够有效地提高协同过滤推荐算法在大数据规模下的执行效率, 从而能够进一步地搭建低成本高性能、动态扩展的分布式推荐引擎.  相似文献   

3.
本文通过对云计算和推荐系统的研究,构建了一种基于Hadoop平台的混合推荐算法。文中介绍了改进的混合推进算法,并结合Hadoop平台的Map Reduce编程模型来实现。通过实验验证,该算法能精确的预测用户的偏好,向用户推荐感兴趣的信息。其次,Hadoop能满足对大量数据处理的要求,结合改进的混合推荐算法,能够大大提高推荐系统的性能。  相似文献   

4.
在电子商务推荐系统中,协同过滤算法技术是主要的采用技术,而推荐系统的准确率受相似度方法的直接影响。本文通过对用户共同评分项的流行度和用户的特征之间的相关性的分析,给出了改进的相似度度量方法及相应的协同过滤推荐算法,设计并实现了基于Hadoop的协同过滤推荐系统。利用MAE分别对原始协同过滤推荐效果和改进后的推荐算法进行测评,结果表明,该算法在一定程度上提高了推荐的准确度。同时,对分布式推荐平台的整体性能实验表明,随着虚拟机节点的适度增加,协同过滤推荐引擎的计算时间不断减少,这表明推荐引擎的总体性能较传
  统单机推荐引擎得到提升。  相似文献   

5.
齐观德  潘遥  李石坚  潘纲 《软件学报》2013,24(S2):14-23
随着城市人口的增长与交通问题的加剧,出行也变得越来越困难.出租车是重要的公共交通工具;对于乘客来说,了解等候出租车需要花费的时间有助于他们安排行程与选择最优的等候地点.针对这个问题,使用出租车轨迹的历史数据,预测乘客在某时某地等候出租车需要的时间.算法使用参数与非参数模型,通过对空车到达过程的建模,预测单个乘客等候出租车需要的时间.使用大规模的杭州出租车数据,结合仿真来验证预测算法.实验评估结果显示,参数模型对等候时间预测的平均误差约为4.5分钟,并且参数模型预测误差小于5 分钟的概率约为83%.  相似文献   

6.
针对商业选址问题,提出一种基于城市出租车GPS轨迹和POI数据的商业选址推荐算法。首先,对城市出租车GPS轨迹和POI数据进行预处理及地图匹配,然后将城区进行交通小区划分,用OD矩阵分析交通小区之间的交通流量特征,并结合交通小区内POI的分布特征和语义属性,构建基于OD矩阵和对应小区POI数据相结合的商业地址推荐模型。最后,应用兰州市出租车GPS轨迹与POI数据验证了推荐算法的有效性和实用性,并将推荐结果在交通小区尺度上进行可视化呈现。实验结果表明,该推荐算法不仅能够推荐合理的商业选址,为商业选址决策提供快速有效的可视化定量分析方法,同时能够为城市公共服务设施空间布局规划提供决策依据。  相似文献   

7.
个性化推荐技术的发展有利于解决互联网海量数据信息过载问题。本文在了解分布式处理架构的特点的基 础上,提出了基于Hadoop 构建标签推荐系统方案。采用基于MapReduce 模型实现的算法具有较高的伸缩性和性能,能高效 地进行离线数据分析。  相似文献   

8.
9.
轨迹推荐在轨迹数据挖掘中尤为重要,可以帮助用户从大量轨迹数据中快速找到满足用户需求的路线.现有的轨迹推荐方法通常是在原始轨迹数据上考虑特定代价标准最优的前提下返回出行路线,无法体现不同用户的不同行为习惯.针对此问题,将用户前后连贯的活动刻画为行为,提出基于矩阵分解的用户行为概率学习方法.基于学习的用户行为概率,将寻找概...  相似文献   

10.
对于具有海量信息的个性化推荐问题。K—means聚类算法的传统实现方式已不能快速准确地满足要求。基于目前最为流行的开源云计算平台Hadoop及分布式计算框架MapReduce,实现K—means聚类算法的并行化。给出该算法的具体实现,实验表明能够较好地解决时间瓶颈问题。  相似文献   

11.
为解决传统数据挖掘算法在大量数据处理时面临的内存占用、计算性能等方面的问题,基于Hadoop平台,应用HBase文件存储系统对海量数据分布式存储以及Map Reduce框架进行分布式计算,实现Apriori经典数据挖掘算法。通过对已实现的Apriori算法进行优化,引入FIS-IS算法思想,从数据库扫描次数和容量消减方向进行改进。提出针对数据本身进行频繁预选项生成方法与对于频繁预选项剪枝步骤进行分组检索的优化方法。实验结果验证了改进算法对算法运行具有良好的优化效果。  相似文献   

12.
基于Hadoop的FP-Growth关联规则并行改进算法   总被引:1,自引:0,他引:1  
大数据环境下,传统的串行FP-Growth算法在处理海量数据时,占用内存过大、频繁项多,适用于大数据情况的PFP(Parallel FP-Growth)算法存在数据量增大无法处理的缺陷。针对这些问题,本文提出了基于Hadoop的负载均衡数据分割FP-Growth并行算法。在Hadoop平台下,本文使用负载均衡和数据分割相结合的方式对原始事务数据集分片实现并行化。实验证明基于Hadoop的负载均衡数据分割FP-Growth并行算法在处理数据量和效率上有所提高。  相似文献   

13.
针对现有地图匹配算法(如基于经典隐马尔可夫及其变体、先进算法等)对于低频轨迹数据匹配效果不甚理想的问题,提出一种基于海量公交历史轨迹数据的轨迹数据挖掘方法。首先,以公交站点为序列骨架,从大量低频轨迹中挖掘、提取轨迹点数据,进行重组、排序形成高质量高频轨迹数据序列;然后,将高质量高频轨迹数据序列应用基于经典隐马尔可夫模型地图匹配算法,得到公交路线地图匹配结果。与未经过挖掘算法处理的低频轨迹数据的匹配方法相比,所提方法在匹配误差上平均下降6.3%,匹配所需的数据规模、时间大幅缩减;且该方法对于低频、不稳定的噪声数据具有鲁棒性,适用于所有公交路线的地图匹配问题。  相似文献   

14.
针对Hadoop平台现有任务调度算法优化程度不高的问题, 提出了一种基于数据局部性的推测式任务调度算法。该算法通过计算节点上Map和Reduce任务时长比例, 结合不同节点上数据的局部特性, 采用了比现有算法更精确的任务进度探测方式找出快慢节点, 在快节点上启动剩余时间最长的落后任务的备份任务, 用移动计算代替移动数据。在Hadoop环境中进行了实验, 结果表明该算法比现有算法缩短了任务平均运行时间, 加快了任务的执行效率。  相似文献   

15.
针对当前决策树算法较少考虑训练集的嘈杂程度对模型的影响,以及传统驻留内存算法处理海量数据困难的问题,提出一种基于Hadoop平台的不确定概率C4.5算法--IP-C4.5算法。在训练模型时,IP-C4.5算法认为用于建树的训练集是不可靠的,通过用基于不确定概率的信息增益率作为分裂属性选择标准,减小了训练集的嘈杂性对模型的影响。在Hadoop平台下,通过将IP-C4.5算法以文件分裂的方式进行MapReduce化程序设计,增强了处理海量数据的能力。与C4.5和完全信条树(CCDT)算法的对比实验结果表明,在训练集数据是嘈杂的情况下,IP-C4.5算法的准确率相对更高,尤其当数据嘈杂度大于10%时,表现更加优秀;并且基于Hadoop的并行化的IP-C4.5算法具有处理海量数据的能力。  相似文献   

16.
针对高分辨率图像像素分割时间复杂度高的问题,提出了超像素分割算法。采用超像素代替原始的像素作为分割的处理基元,将Hadoop分布式的特点与超像素的分块相结合。在分片过程中提出了基于多任务的静态与动态结合的适应性算法,使得Hadoop分布式文件系统(HDFS)的分块与任务分发的基元解耦;在每一个Map节点任务中,基于超像素分块的边界性对超像素的形成在距离和梯度上进行约束,提出了基于分水岭的并行化分割算法。在Shuffle过程的超像素块间合并中提出了两种合并策略,并进行了比较。在Reduce节点任务中优化了超像素块内合并,完成最终的分割。实验结果表明.所提算法在边缘查全率(BR)和欠分割错误率(UR)等分割质量指标上优于简单线性迭代聚类(SLIC)算法和标准分割(Ncut)算法,在高分辨率图像的分割时间上有显著降低。  相似文献   

17.
风电场数据中心包含状态监测、数据采集等实时类作业和非实时类作业,采用C/S结构存在资源利用率不平衡、管理与维护成本高等缺点。设计了一种基于Hadoop云平台的数据中心架构;针对开源Hadoop平台现有FIFO调度器不能满足实时监测系统要求,在原有FIFO调度器的基础上,设计了一种双队列的作业调度器,综合考虑作业的截止时间和优先级来进行作业调度决策,实验结果表明,与FIFO调度器相比,双队列的作业调度器在集群负载较大时能够表现出较好的性能,保证实时类作业能够优先执行,为风电机组的安全运行提供保障。  相似文献   

18.
基于Hadoop的仿射传播大数据聚类分析方法   总被引:1,自引:0,他引:1  
仿射传播聚类算法(AP)是一个新的聚类分析方法,已经被广泛应用于各种领域。APC算法不能用于大型数据的分析。为了克服这个限制,在Hadoop分布式框架的基础上提出一种改进的放射传播聚类分析方法(基于Hadoop的仿射传播大数据聚类分析方法,简称APCH)。通过在Hadoop环境下重新设计算法流程,APCH算法成为了一个并行化的大数据聚类分析方法。此外APCH算法能够高效操作大数据,并能够直接决定聚类的个数。为了验证方法的性能,在多个数据集上进行了实验。实验结果表明APCH对大数据处理有很好的适应性和延展性。APCH采用开源的方式提供可执行软件程序和源代码,用户可以下载后部署在自己的分布式集群中或者是部署在亚马逊EC2等云计算环境中。所有编译后的执行程序,源代码,用户手册,部分测试数据集均可以从https://github.com/HelloWorldCN/MapReduceAPC上下载。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号