首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 593 毫秒
1.
考虑潜在高价值旅客特有的数据高度不平衡、旅客特征和价值类别弱相关等问题,提出一种基于三重混合采样和集成学习的潜在高价值旅客发现模型。采用RFM(Recency Frequency Monetary)方法标注旅客类别;使用三重混合采样对不平衡旅客数据集进行重采样;使用融合特征选择算法遴选旅客特征;使用梯度提升决策树作为分类器,构建旅客价值预测模型,识别潜在高价值旅客。在PNR数据集上的实验结果表明,与基准算法相比,该模型能取得更好的AUC值和F1值,可以较好地识别潜在高价值旅客。  相似文献   

2.
传统的民航旅客价值分析仅仅针对单个旅客的乘机数据,忽略了旅客间存在的关系.为了提供社会网络类型数据支持,更全面地分析民航旅客,提出一种PNR数据的民航旅客社会网络构建方法.分析PNR数据特征,并描述民航旅客社会网络结构.在分析节点属性时,提出民航旅客RFM模型,引入旅客个体价值.根据旅客订座行为特征发现旅客关系,计算旅客间的乘机关联度,创建四元组有效表示节点间的边.应用Oracle数据库,从PNR表中生成该网络的节点集和边集.在真实PNR数据集上的实验表明方法的有效性和可行性.  相似文献   

3.
基于Hadoop的句群相似度计算   总被引:2,自引:1,他引:1  
介绍了Hadoop开源框架、Map/Reduce编程模型以及语句相似度计算原理,利用Hadoop框架下的Map/Reduce编程模型实现了句群相似度并行计算方法。通过实验验证了该算法的稳定性和处理大量数据的可行性。  相似文献   

4.
本文首先介绍云计算与Map/Reduce、基于多Agent工作流的供应链管理的主要特征,从而分析了将两者结合的必要性,给出了基于云平台的供应链软件总体功能模型,并结合Map/Reduce并行编程框架与Agent工作流过程管理提出了一种基于并行处理的VMI库存管理软件系统架构。  相似文献   

5.
针对高维、维度分层的大数据集,提出一种基于Map/Reduce框架的并行外壳片段立方体构建算法。算法采用Map/Reduce框架,实现外壳片段立方体的并行构建与查询。构建算法在Map过程中,计算出各个数据分块所有可能的数据单元或层次维编码前缀;在Reduce过程中,聚合计算得到最终的外壳片段和度量索引表。实验证明,并行外壳片段立方体算法一方面结合了Map/Reduce框架的并行性和高扩展性,另一方面结合了外壳片段立方体的压缩策略和倒排索引机制,能够有效避免高维数据物化时数据量的爆炸式增长,提供快速构建和查询操作。  相似文献   

6.
Map/Reduce是海量离线数据分析中广泛应用的并行编程模型.Hive数据仓库基于Map/Reduce实现了查询处理引擎,然而Map/Reduce框架在处理偏斜数据时会出现工作负载分布不均的问题.均衡计算模型(computation balanced model,CBM),其核心思想是通过数据分布特征指导查询计划优化.相应研究贡献包括2部分,首先针对应用极广的GroupBy查询和Join查询建立了运行估价模型,确定了不同场景下查询计划的优化选择分支;其次基于Hive ETL机制设计了一种统计信息收集方法,解决了统计海量数据分布特征的问题.实验数据表明,通过CBM优化的GroupBy查询耗时节省了8%~45%,Join查询耗时节省了12%~46%;集群CPU负载均衡指标优化了60%~80%,I/O负载均衡指标优化了60%~90%.实验结果证实了基于CBM模型优化的查询计划生成器能显著均衡化Hive查询运行时的集群负载,并优化了查询处理效率.  相似文献   

7.
混合存储下的MapReduce启发式多表连接优化   总被引:1,自引:0,他引:1  
对Map Reduce下的多表连接查询进行了研究,发现由于Map Reduce框架本身的局限性,造成执行效率较低。针对此问题,提出了Map Reduce启发式多表连接优化方法(Map Reduce based heuristic multi-join optimization,MHMO),为不同的连接模式启发式地推荐不同的执行算法。特别的,对于混合连接,首先将其分组为多个简单连接模式,进而定义代价模型确定各分组的最优执行顺序。结合列存储的延迟物化技术,大大提高了Map Reduce下多表连接的执行性能。最后,在数据仓库基准测试数据集TPCH上进行了实验,验证了MHMO的有效性。  相似文献   

8.
大数据时代的到来,使许多云环境下的新型应用蓬勃发展。针对大数据管理的新需求,key-value型数据存储系统成为当今研究的热点。基于key-value引擎的内存数据库Redis以及Cuckoo Hash技术,提出一种混合哈希快速查找算法CSR_Hash。通过对实验结果的分析,表明该算法有效地缩短了查询响应时间,并将其应用在通过Hadoop云平台以及Map/Reduce编程模型实现的图书销售系统中,对图书数据进行实时高效的解析与推荐,增强了No SQL数据库与Map/Reduce结合的实时性和高并发性。  相似文献   

9.
苏彦舟 《电脑迷》2018,(7):196-197
随着科学技术的发展,云计算可以实现对海量数据的低成本、高效率挖掘.借助云计算上的Map Reduce模型能够对海量数据进行高效的并行处理,不仅可以提高海量数据信息的获取效果,而且还可以确保数据挖掘结果的准确性.  相似文献   

10.
随着云计算的快速发展,IT资源规模的不断扩大导致能耗问题日益凸显.为降低MapReduce编程模型带来的高能耗,文中研究Map/Reduce任务的资源消费特征及该特征与能效的关系,旨在寻找一种能够指导资源分配和任务调度的资源模型,进而实现能效优化.文中提出任务的能效与任务被分配的资源量无关,而与其被分配的各种资源的资源量比例相关,且存在一个“最佳资源比”使得能效达到最高.基于此,文中首先提出了普适的资源和能效模型,从模型层面证明最佳资源比和能效之间的关系,量化空闲资源量和空闲能耗;随后分析MapReduce编程模型,将普适资源比模型变换到MapReduce下.通过抽象的数据的“生产者-消费者”模式,求解Map/Reduce任务的最佳资源比;最后,通过实验从任务能效和空闲能耗两个角度证明了最佳资源比的存在,并根据实验结果,对MapReduce执行过程进行划分,给出了部分Map/Reduce任务的最佳资源比.最佳资源比的提出和求解将有利于基于该最佳资源比的任务调度和资源分配算法的研究,进而实现Map/Reduce任务能效的提高.  相似文献   

11.
随着社交网络的快速发展,海量社交网络的数据挖掘成为一个重要课题;针对海量数据的社交网络分析方法进行研究,以Hadoop的分布式文件系统和Map/Reduce并行方法设计基于Hadoop的分布式数据挖掘框架,在此基础上,通过Map/Reduce的并行方法,将传统数据挖掘算法并行化,以谱聚类的并行为例,阐述转化的过程并对在大数据条件下所面临的内存不足的问题给出相应的算法优化;最后对3个不同量级的数据集进行实验,验证基于Hadoop的社交网络分析平台的框架的合理性和算法并行化的有效性。  相似文献   

12.
基于Hadoop的云计算模型   总被引:2,自引:0,他引:2  
林清滢 《现代计算机》2010,(7):114-116,121
Hadoop是一个更容易开发和并行处理大规模数据的分布式计算平台,也是目前最为广泛应用的开源云计算软件平台。在对Hadoop平台上的分布式文件系统HDFS和计算模型Map/Reduce进行深入分析和研究的基础上,给出基于Hadoop的云计算模型和实现步骤。  相似文献   

13.
冀素琴  石洪波  卫洁 《计算机工程》2012,38(16):203-206
集中式系统框架难以进行海量文本数据分类。为此,提出一种基于Map Reduce的Bagging贝叶斯文本分类算法。介绍朴素贝叶斯文本分类算法,将其与Bagging算法结合,运用Map Reduce并行编程模型,在Hadoop平台上实现算法。实验结果表明,该算法分类准确率较高,运行时间较短,适用于大规模文本数据集的分类学习。  相似文献   

14.
云计算为存储和分析海量数据提供了高效的解决方案,对数据挖掘算法的研究具有重要的理论意义和应用价值。SLIQ算法采用逐一遍历并计算伸缩性指标的方法来寻找最佳分裂点,这种方法过于消耗时间,当数据量增大时,算法的执行效率很低。本文针对云计算环境下的决策规则挖掘算法展开研究,介绍了Map Reduce编程模型,在此基础上,以实现云计算环境下SLIQ并行化挖掘为目的,给出了改进后的SLIQ算法在Map Reduce编程模型上的应用过程。  相似文献   

15.
针对传统的在线学习行为评价方法在处理大规模数据集时面临的问题,提出一种基于并行AdaboostBP神经网络的在线学习行为评价方法。将BP神经网络作为弱预测器,由Adaboost算法组合15个BP神经网络的输出,构建了强预测器;充分利用了Hadoop平台下Map Reduce并行编程模型,提出了大规模在线学习行为的自动评价模型,设计了并行Adaboost-BP神经网络算法的Map和Reduce任务。多组实验表明,提出的算法准确率高、运行耗时少,取得了良好的加速比,效率大于0.5,适合大规模在线学习行为的自动评价。  相似文献   

16.
针对MapReduce模型中存在的多个Reduce任务之间完成时间差别较大的问题,分析了影响Reduce任务完成时间的因素,指出了MapReduce模型中Reduce任务节点存在数据倾斜问题,提出了一种改进型的MapReduce模型MBR(Map-Balance-Reduce)模型。通过添加Balance任务,对Map任务处理完成的中间数据进行均衡操作,使得分配到Reduce任务节点的数据比较均衡,从而确保Reduce任务的完成时间基本一致。仿真实验结果表明,经过Balance任务后,Map任务产生的中间数据能够比较均衡的分配给Reduce任务节点,达到数据计算均衡的目的,在一定程度上减少了整个作业的执行时间。  相似文献   

17.
MapReduce:新型的分布式并行计算编程模型   总被引:3,自引:0,他引:3  
MapReduce是Google提出的分布式并行计算编程模型,用于大规模数据的并行处理。Ma-pReduce模型受函数式编程语言的启发,将大规模数据处理作业拆分成若干个可独立运行的Map任务,分配到不同的机器上去执行,生成某种格式的中间文件,再由若干个Reduce任务合并这些中间文件获得最后的输出文件。用户在使用MapReduce模型进行大规模数据处理时,可以将主要精力放在如何编写Map和Reduce函数上,其它并行计算中的复杂问题诸如分布式文件系统、工作调度、容错、机器间通信等都交给MapReduce系统处理,在很大程度上降低了整个编程难度。MapReduce日益成为云计算平台的主流编程模型。Apache Hadoop项目提供开源的MapReduce系统还有待进一步完善。  相似文献   

18.
针对当前传统数据库已经不能满足海量农产品安全监控信息的存取及处理需求,借鉴Hadoop平台的分布式文件系统和Map/Reduce并行计算方法设计了农产品安全监控平台的框架,在此基础上,提出了一种用于监测农产品各项指标的Map/Reduce算法;最后通过Linux集群技术,搭建了一个基于Hadoop的农产品安全监控数据存储处理实验性平台,该平台能够有效地对海量农产品数据进行及时存储与处理。实验最终结果表明,相比传统的数据库,该平台能够大幅提升海量农产品数据的吞吐率及数据处理性能,由此验证了平台的合理及有效性。  相似文献   

19.
基于开源Hadoop的矢量空间数据分布式处理研究   总被引:1,自引:0,他引:1  
为实现大规模矢量数据的高性能处理,在开源项目Hadoop基础上,设计与开发了一个基于MapReduce的矢量数据分布式计算系统。根据矢量空间数据的特点,通过分析Key/Value数据模型及GeoJSON地理数据编码格式,构建了可存储于Hadoop hdfs的矢量数据Key/Value文本文件格式;探讨矢量数据的MapReduce计算过程,对Map数据分片、并行处理过程及Reduce结果合并等关键步骤进行了详细阐述;基于上述技术,建立了矢量数据分布式计算原型系统,详细介绍系统组成,并将其应用于处理关中地区1∶10万土地利用矢量空间数据,取得较好效果。  相似文献   

20.
传统的指纹识别监控方法在应用到以海量、在线和增量为特征的大数据环境中时,不能自动高效地进行识别;由此设计了一种基于Map-Reduce并行框架和AE的大数据智能监控指纹识别算法;首先,设计了基于AE和BP神经网络的识别模型,采用AE进行指纹图像自动特征提取,然后提出了一种基于比较差异算法对AE进行参数初始化的训练算法,采用BP神经网络进行具体识别;最后,将识别过程分解为Map函数和Reduce函数;在Map-Reduce并行框架下对FVC2004中的指纹数据库进行实验,实验结果表明了文中方法能自动、高效地进行指纹识别。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号