期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

混合存储下的MapReduce启发式多表连接优化 总被引：1，自引：0，他引：1

王梅邢露露孙莉《计算机科学与探索》2014,(11):1334-1344

对Map Reduce下的多表连接查询进行了研究,发现由于Map Reduce框架本身的局限性,造成执行效率较低。针对此问题,提出了Map Reduce启发式多表连接优化方法(Map Reduce based heuristic multi-join optimization,MHMO),为不同的连接模式启发式地推荐不同的执行算法。特别的,对于混合连接,首先将其分组为多个简单连接模式,进而定义代价模型确定各分组的最优执行顺序。结合列存储的延迟物化技术,大大提高了Map Reduce下多表连接的执行性能。最后,在数据仓库基准测试数据集TPCH上进行了实验,验证了MHMO的有效性。相似文献

2.

基于Map/Reduce的外壳片段立方体并行计算方法

下载免费PDF全文

唐珊珊朱跃龙朱凯《计算机工程与应用》2015,51(22):124-129

针对高维、维度分层的大数据集,提出一种基于Map/Reduce框架的并行外壳片段立方体构建算法。算法采用Map/Reduce框架,实现外壳片段立方体的并行构建与查询。构建算法在Map过程中,计算出各个数据分块所有可能的数据单元或层次维编码前缀;在Reduce过程中,聚合计算得到最终的外壳片段和度量索引表。实验证明,并行外壳片段立方体算法一方面结合了Map/Reduce框架的并行性和高扩展性,另一方面结合了外壳片段立方体的压缩策略和倒排索引机制,能够有效避免高维数据物化时数据量的爆炸式增长,提供快速构建和查询操作。相似文献

3.

基于MapReduce的数据挖掘平台设计与实现

张家瑞《网络安全技术与应用》2014,(11):49-49

随着我国经济的不断发展,我国逐渐进入信息时代,信息时代的到来极大的为人们提供便捷的生活服务,为了跟随时代的步伐Map Reduce的数据技术应运而生,Map Reduce是Map（映射）与Reduce（化简）的相结合,最初这些都只是简单的函数式编程语言,后来被应用在高科技的编程模式中,Map Reduce具有一定的矢量编程语言特征,这些高科技的编程模式阻碍着编写人员对分散的程序进行重写编写,本文针对Map Reduce数据挖掘平台的弊端来分析,研究Map Reduce的数据挖掘平台的特征,最后对Map Reduce的数据挖掘平台进行全方位的探究。相似文献

4.

基于云计算的SLIQ并行算法研究

杨长春沈晓玲《计算机工程与科学》2012,34(3):62-66

云计算为存储和分析海量数据提供了高效的解决方案,对数据挖掘算法的研究具有重要的理论意义和应用价值。SLIQ算法采用逐一遍历并计算伸缩性指标的方法来寻找最佳分裂点,这种方法过于消耗时间,当数据量增大时,算法的执行效率很低。本文针对云计算环境下的决策规则挖掘算法展开研究,介绍了Map Reduce编程模型,在此基础上,以实现云计算环境下SLIQ并行化挖掘为目的,给出了改进后的SLIQ算法在Map Reduce编程模型上的应用过程。相似文献

5.

基于Hadoop的农产品安全监控平台的设计

下载免费PDF全文

王健飞潘芳潘郁《计算机测量与控制》2015,23(12):40-40

针对当前传统数据库已经不能满足海量农产品安全监控信息的存取及处理需求,借鉴Hadoop平台的分布式文件系统和Map/Reduce并行计算方法设计了农产品安全监控平台的框架,在此基础上,提出了一种用于监测农产品各项指标的Map/Reduce算法;最后通过Linux集群技术,搭建了一个基于Hadoop的农产品安全监控数据存储处理实验性平台,该平台能够有效地对海量农产品数据进行及时存储与处理。实验最终结果表明,相比传统的数据库,该平台能够大幅提升海量农产品数据的吞吐率及数据处理性能,由此验证了平台的合理及有效性。相似文献

6.

基于大规模廉价计算平台的海量数据处理系统的研究*

徐小龙吴家兴杨庚程春玲王汝传a 《计算机应用研究》2012,29(2):582-585

提出一种基于大规模廉价计算平台的海量数据处理模型,吸取了Map/Reduce计算模式和大规模分布式数据存储机制Bigtable的基本思想,实现了以数据为中心的计算密集型的经济性超级计算系统平台。系统选择电信部门的大规模业务数据为分析对象,对电信通话和数据业务的大规模数据集进行处理,从而向运营商和普通用户提供有价值的数据分析服务。该平台适用于其他多种海量数据的分布式处理,为其他的各种应用提供了一个具有良好参考价值的示范。相似文献

7.

基于Hadoop分布式文件系统的分析与研究

王跃《计算机光盘软件与应用》2011,(9)

通过对HDFS(Hadoop的一个分布式文件系统)以及Map/Reduce数据驱编程模型和HBase分布式的、列存储数据库和Hive分布式数据仓库的分析.可以得到Hadoop的优势在于能以批处理模式处理PB级以上的数据集,适合做离线的数据分析,不适合实时响应需求,如股票系统.客户端是打包成JAR文件形式,运行于Hadoop命令行界面,可以定制执行策略,当数据到来的时候运行Map/Reduce程序,可以手动执行也可以定时执行.可以用Map/Reduce作为BI等海量数据分析平台的分布式数据处理引擎,HDFS作为底层存储文件系统. 相似文献

8.

神经网络的C编程及矿井安全预测仿真

刘玉海《软件》2013,34(5):88-90

通过对人工神经网络BP模型基本原理和学习算法的分析,建立以模拟人的大脑神经处理信息的方式,进行信息并行处理和非线性转换的预测模型,使用C语言编制了BP网络学习的算法程序,在矿井瓦斯涌出量仿真实例中,用训练成功的网络分别对训练样本进行计算,预测仿真矿井的瓦斯涌出量,为矿井安全生产提供科学依据。相似文献

9.

基于Hadoop的句群相似度计算 总被引：2，自引：1，他引：1

宁可为王炜李园伟《计算机系统应用》2010,19(12):59-63

介绍了Hadoop开源框架、Map／Reduce编程模型以及语句相似度计算原理,利用Hadoop框架下的Map／Reduce编程模型实现了句群相似度并行计算方法。通过实验验证了该算法的稳定性和处理大量数据的可行性。相似文献

10.

基于Map Reduce的快速视频镜头边界检测算法

《图学学报》2017,(1)

镜头边界检测是视频索引、检索和分析的基础。视频数据量大,镜头边界检测中的高计算成本是实际应用的一个瓶颈。利用Map Reduce模型分布式的计算思想,首先将大量的视频数据处理作业拆分成若干个可独立运行的Map任务,进行视频的解码和特征提取,然后由若干个Reduce任务对特征值进行检测获得最后镜头边界集合。在镜头特征提取时把视频分成31帧的小片段,利用带权值的分块的直方图计算视频片段的首尾帧间差,通过自适应阈值筛选出非镜头切换片段和候选镜头切换片段,对候选镜头切换片段再做进一步检测,提出非相邻帧二次帧差法对渐变镜头进行检测。实验结果表明,利用Map Reduce模型和改进的镜头算法在加速镜头边界检测的同时,还可以取得较好的检测精度。相似文献