共查询到17条相似文献,搜索用时 62 毫秒
1.
数据的指数级增长给数据管理和分析带来了严峻的挑战.连接查询是数据分析中一种常用运算,而MapReduce是一种用于大规模数据集并行处理的编程模型,研究基于MapReduce的连接查询代价评估和查询优化,有着学术意义和应用价值.MapReduce连接查询算法的性能主要取决于I/O代价(包括本地和网络I/O),而I/O代价与数据集以及连接运算的特征参数相关,通过对二元连接的I/O代价评估可以优化多元连接执行计划.基于此,首先提出了二元连接查询的I/O代价模型;随后,对现有二元连接算法进行形式化定义和简单扩展,归纳出6种基于MapReduce连接查询算法,并通过算法白盒分析定义它们的I/O代价函数;最后,提出一种多元连接最优执行计划的选择算法.通过实验表明I/O代价模型的正确性且能够准确地反映算法的性能优劣. 相似文献
2.
3.
Helge Hornis PepperI+Fuchs 《软件》2008,(1):48-48
为了保持竞争力.无论是用户.机器制造商还是集成商.都要求更短的I/O(输入/输出)线缆安装时间。有几种方式都可以帮助满足这~需求.当然,多种方案的结合可以实现最大的收益。 相似文献
4.
5.
6月,WWDC2014与Google I/O相继召开,这是我第三年参加GoogleI/O大会。每年I/O大会上Google都会展示其最新的产品和技术,本届Google I/O大会,Google向世界展示了一幅场景:Google正在连接一切。 相似文献
6.
刘鑫 《电脑编程技巧与维护》2012,(10):78-79,122
详细分析Windows的I/O机制,提出了分别在用户级、系统级、驱动级的I/O模拟操作,通过实际案例和源代码分享在I/O模拟上的得失,着重介绍鼠标与键盘的模拟。 相似文献
7.
本文比较了并,串两种I/O方案的优缺点,并概念性地描术这了光纤通道的分层结构以及用光纤通道实现的SCSII/O的基本原理。 相似文献
8.
磁带库系统的随机I/O调度算法 总被引:1,自引:0,他引:1
由于磁带库随机存取的性能很差,需要研究有效的随机I/O调度策略和算法以改善其在线存取的效率.对已有调度算法进行了分类、提炼和总结,利用仿真实验对静态调度、动态调度和基于复制的调度算法进行了深入研究,讨论了影响各种算法有效性的因素.针对已有算法在较重的负载条件下使系统性能急剧恶化的问题,还提出并研究了一种基于效益-代价均衡的调度算法.该算法引入效益-代价加权的概念,通过调节不同负载下的效益-代价加权比,极大地改善了已有算法在重负载下的有效性.该项研究为设计海量存储系统中的自适应调度算法提供了重要依据. 相似文献
9.
首先分别介绍了文件I/O和标准I/O库的相关函数和实现细节,提出了一系列有关文件读写效率的猜想,然后基于Linux平台设计实验并验证了提出的猜想,最后比较了文件I/O函数和标准I/O库函数,并总结了各自的适用场合。 相似文献
10.
随着现代应用中数据规模的迅速增长,以及复杂处理要求的出现,传统的集中式和分布式数据处理技术已经不能满足需要;而大规模集群由于具有可伸缩性、高可用性、容错性的优势,逐渐为数据密集型应用所广泛使用.这里针对大规模集群上数据连接(join)操作的效率问题:1)分析了基于Map/Reduce框架的连接操作实现的效率瓶颈;2)提出了一种采用预散列(hash)的连接操作实现技术;3)研究了针对星型连接的优化技术.代价模型分析与实验显示,此处提出的方法能够有效提高连接操作的效率. 相似文献
11.
随着NOW在科学研究中白益广泛的应用,如何为NOW上的科学计算提供高性能的输入输出成为我们面临的一个新课题。作者根据NOW的特点,设计并实现了一个具有NOW特色的基于CollectiveI/Q的并行I/O系统,吸取了DDIO与two-phaseI/O的优点,从而有效地解决了高带宽和低延迟问题。初步的系统吞吐量测试显示了良好的性能。 相似文献
12.
本文将SCSI总线协议中的失连一再选技术应用于磁盘阵列,使得磁盘阵列中同一串上各个磁盘之间高度并行,从而显著地提高随机读的性能。测试表明了并发技术的有效性。 相似文献
13.
14.
本文对MPI-IO库中Collective I/O的实现算法Two-phase I/O提出了改进。通过选取主联络进程来减少第一阶段进程间的通信量,从而减少Two-phase I/O方法在通信过程中的时间消耗,提高了整体的I/O性能。 相似文献
15.
In this paper, we study I/O server placement for optimizing parallel I/O performance on switch-based clusters, which typically
adopt irregular network topologies to allow construction of scalable systems with incremental expansion capability. Finding
optimal solution to this problem is computationally intractable. We quantified the number of messages travelling through each
network link by a workload function, and developed three heuristic algorithms to find good solutions based on the values of the workload function. The maximum-workload-based
heuristic chooses the locations for I/O nodes in order to minimize the maximum value of the workload function. The distance-based
heuristic aims to minimize the average distance between the compute nodes and I/O nodes, which is equivalent to minimizing
average workload on the network links. The load-balance-based heuristic balances the workload on the links based on a recursive
traversal of the routing tree for the network.
Our simulation results demonstrate performance advantage of our algorithms over a number of algorithms commonly used in existing
parallel systems. In particular, the load-balance-based algorithm is superior to the other algorithms in most cases, with
improvement ratio of 10 to 95% in terms of parallel I/O throughput. 相似文献
16.
从VB的第一个版本开始,文件处理都是可以通过使用Open语句以及其他一些相关的语句和函数来实现的。本文首先阐述了文件访问类型,然后介绍了文件访问函数,接着分别讲述了如何进行顺序文件、随机文件、二进制文件的访问并且进行比较,最后总结了传统的文件I/O语句在VB中的特点。 相似文献
17.
One problem with data-intensive computing facilitating is how to effectively manage massive amounts of data stored in a parallel I/O system. The file assignment method plays a significant role in data management. However, in the context of a parallel I/O system, most existing file assignment approaches share the following two limitations. First, most existing methods are designed for a non-partitioned file, while the file in a parallel I/O system is generally partitioned to provide aggregated bandwidth. Second, the file allocation metric, e.g. service time, of most existing methods is difficult to determine in practice, and also these metrics only reflect the static property of the file. In this paper, a new metric, namely file access density is proposed to capture the dynamic property of file access, i.e. disk contention property. Based on file access density definition, this paper introduces a new static file assignment algorithm named MinCPP and its dynamic version DMinCPP, both of which aim at minimizing the disk contention property. Furthermore MinCPP and DMinCPP take the file partition property into consideration by trying to allocate the partitions belonging to the same file onto different disks. By assuming file request arrival follows the Poisson process, we prove the effectiveness of the proposed schemes both analytically and experimentally. The MinCPP presented in this study can be applied to reorganize the files stored in a large-scale parallel I/O system and the DMinCPP can be integrated into file systems which dynamically allocate files in a batch. 相似文献