首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
基于时空划分的思想,设计概要数据结构的在线生成算法。概要数据结构保存流数据不同时刻的分布状态,以支持离线阶段的分类、聚类和关联规则发现等数据挖掘操作。研究时间粒度、量化向量调整和子区域索引等3项内存需求控制策略,以平衡概要数据结构的内存需求和内外存之间的I/O次数。  相似文献   

2.
数据流是一种新型数据模型,广泛应用于交通流量监控、通信管理、传感器网络、股票分析、Web点击流等众多领域.近年来越来越多的学者关注于数据流上的分位数计算研究.由于流数据的连续、无界、易失等特性,存储完整的流数据信息并得到精确的查询结果几乎是不可能的.在实施查询计算时追求内存用量与查询精度之间的最佳均衡.设计了规范数直方图的概要数据结构以存储流数据的摘要信息,并在此基础上提出了单遍扫描的、联机的分位数近似算法,其时间和空间复杂度均线性于概要结构中桶的个数,而与数据流的长度无关,因而具有很好的可规模性.该方法在均匀分布的数据上取得了优良性能.分析了算法精度与内存需求的关系.实验结果表明该算法具有较精确的查询结果,具备良好的实用性和有效性.  相似文献   

3.
符学进  鲍可进 《计算机应用》2005,25(7):1520-1522
根据嵌入式系统有限的内存资源和较慢的处理速度的特点,对RFC 1122文档提出的需求进行了约简和改进,以简化实现和提升TCP性能.详细描述了基于嵌入式操作系统μC/OS II的TCP协议实现的模块结构、核心数据结构、连接建立与关闭、收发数据和内存管理等主要技术和工作原理.最后还给出了快速重传和拥塞避免算法的实现.  相似文献   

4.
符学进  鲍可进 《计算机应用》2005,25(7):1520-1522
根据嵌入式系统有限的内存资源和较慢的处理速度的特点,对RFC1122文档提出的需求进行了约简和改进,以简化实现和提升TCP性能。详细描述了基于嵌入式操作系统μC/OSⅡ的TCP协议实现的模块结构、核心数据结构、连接建立与关闭、收发数据和内存管理等主要技术和工作原理。最后还给出了快速重传和拥塞避免算法的实现。  相似文献   

5.
数据流中基于矩阵的频繁项集挖掘   总被引:3,自引:0,他引:3       下载免费PDF全文
挖掘频繁项集是挖掘数据流的基本任务。许多近似算法能够有效地对数据流进行频繁项挖掘,但不能有效地控制内存资源消耗和挖掘运行时间。为了提高数据流频繁项集挖掘的时空效率,通过引入矩阵作为概要数据结构,提出了一种新的数据流频繁项集挖掘算法。最后通过实验证明了该算法的有效性。  相似文献   

6.
一种有效的实现分裂合并算法的数据结构   总被引:1,自引:0,他引:1       下载免费PDF全文
针对现有分裂合并分割算法数据结构存在的问题,本文设计了一种新的数据结构。这种数据结构能非常方便地实现分裂合并算法的每一步骤以及动态地分配内存,从而显著地减少了计算时间并在内存需求上有一定的改善。实验结果表明用这种数据结构实现分裂合并分割算法是有效的。  相似文献   

7.
通过对关系数据库管理系统Postgre SQL的大对象数据缓冲机制的分析,提出了基于流数据的大对象数据缓冲机制。该机制针对传统大对象数据缓冲所使用的页存储机制存在的性能缺陷,以流数据模型来取代一般的块页读取机制,并根据流数据的存储特点构建基于流数据管道的大对象数据缓冲器结构。该结构在内存中维护一个远小于大对象数据规模的可常驻内存的概要数据结构,从而可以迅速得到用户想要的数据,避免了冗余的磁盘I/O。  相似文献   

8.
<正>随着现代计算机科学的迅猛发展,紧凑型数据结构逐渐成为研究和应用的热点领域,其核心目标在于尽可能减少内存占用并提升运行效率,以支撑广泛的计算机应用需求。通过精心的设计和优化,这类数据结构能够在限定的内存空间内存储大量数据,并实现高效的数据操作和访问,从而展现出巨大的潜力。具体来说,在嵌入式系统、计算机网络、数据库系统以及数据挖掘等多个领域,紧凑型数据结构不仅能有效解决空间受限和性能低下的问题,而且在推动相关技术的进步和应用扩展方面起到了关键作用。因此,随着科研的推进以及工业界对资源使用效率的持续追求,紧凑型数据结构的研究与应用正吸引着全球学术界  相似文献   

9.
针对复杂嵌入式系统中的动态内存管理,提出了一种新的方法.将可以使用的动态内存划分成多个内存块组,每组中内存块大小相同,不同组的内存块大小不同.分配动态内存时可以按照需求,使用不同大小的内存块.根据这种新的划分方式,设计了相应的内存块管理链表的数据结构和动态内存的分配、释放算法.并在试验中使用了这种管理方法,给出了该方法和其它方法相比较的试验结果.  相似文献   

10.
刘恒  杨小帆 《计算机应用研究》2012,29(10):3772-3775
动态内存管理的问题对无锁动态数据结构的性能尤为关键,因为多线程环境下的动态内存管理涉及开销较高的同步操作。提出一种构建用于动态无锁数据结构的内存池的方法来减少动态内存使用和与之相伴的动态内存管理开销。该方法通过平衡线程的动态内存消耗来减小内存开销,利用本方法构建的内存池基于线程私有的支持节点窃取的无锁循环队列。本方法具有以下优点:a)用本方法构建的内存池是无锁的;b)能够平衡线程的堆内存消耗;c)可以方便地与动态无锁数据结构集成。实验结果显示,用该方法构造的资源窃取型内存池扩展性较强,且能够在高负载下有效降低无锁数据结构的堆内存消耗和操作执行时间;平衡算法在很大程度上决定内存消耗量,内存池在高负载下的扩展性也受到它所用的数据结构自身多线程访问性能的影响。  相似文献   

11.
由于流数据无限增长的特点,系统无法在内存中保存所有扫描过的流数据,因此数据流处理的关键是建立流数据的概要结构,以便随时能根据该结构提供数据流的近似处理结果,将重点讨论数据流的概要生成技术。先利用经验模态分解方法提取流数据的趋势,滤除数据中的噪声,再利用精确抽样方法实现概要的生成。利用提出的概要生成方法,内存中只需保存滑动窗口中多个段的概要信息。由于该方法中概要是基于趋势序列生成的,趋势序列较原序列平滑,序列中具有相同数值的元素增加,可以进一步节省存储空间。  相似文献   

12.
在多核处理器芯片中,分布式共享存储DSM虽然提供了统一的全局寻址的存储空间,但却引入了虚地址向实地址转换的开销,这对性能产生了负面的影响。我们注意到,在并行程序的执行过程中,被处理的数据属性(私有或共享)并不是一成不变的。并行程序中不同的数据具有不同的属性,即使同一数据在程序的不同执行阶段也可能具有不同的属性。本文首先详细地阐述了一种混合式的分布式共享存储空间,支持对共享数据采用全局寻址的虚地址访问而对私有数据采用快速寻址的实地址访问;进而提出了一种针对混合式的分布式共享存储空间的实时划分技术。该技术根据并行程序中数据的属性,在程序运行时,实时地调整和划分分布式共享存储空间。当数据为私有时,通过实地址访问加快数据的访问速度,当数据为共享时则维持虚地址访问,从而减少整个并行程序运行过程中的地址转换开销,提高系统的性能。实际应用程序的实验结果表明,与传统的分布式共享存储空间相比,实时划分的混合式的分布式共享存储空间具有性能优势,性能的提升比例与具体的网络规模、计算规模、并行程序映射方式等有关。在我们的实验中,性能的提升比例最高为13.14%,最低为6.98%。  相似文献   

13.
Synopses construction algorithms have been found to be of interest in query optimization, approximate query answering and mining, and over the last few years several good synopsis construction algorithms have been proposed. These algorithms have mostly focused on the running time of the synopsis construction vis-a-vis the synopsis quality. However the space complexity of synopsis construction algorithms has not been investigated as thoroughly. Many of the optimum synopsis construction algorithms are expensive in space. For some of these algorithms the space required to construct the synopsis is significantly larger than the space required to store the input. These algorithms rely on the fact that they require a smaller “working space” and most of the data can be resident on disc. The large space complexity of synopsis construction algorithms is a handicap in several scenarios. In the case of streaming algorithms, space is a fundamental constraint. In case of offline optimal or approximate algorithms, a better space complexity often makes these algorithms much more attractive by allowing them to run in main memory and not use disc, or alternately allows us to scale to significantly larger problems without running out of space. In this paper, we propose a simple and general technique that reduces space complexity of synopsis construction algorithms. As a consequence we show that the notion of “working space” proposed in these contexts is redundant. This technique can be easily applied to many existing algorithms for synopsis construction problems. We demonstrate the performance benefits of our proposal through experiments on real-life and synthetic data. We believe that our algorithm also generalizes to a broader range of dynamic programs beyond synopsis construction. Sudipto Guha’s research supported in part by an Alfred P. Sloan Research Fellowship and by NSF Awards CCF-0430376, CCF-0644119.A preliminary version of the paper appeared as “Space efficiency in synopsis construction algorithms”, VLDB Conference 2005, Trondheim, [19].  相似文献   

14.
屠莉  陈崚 《计算机应用》2011,31(2):450-453
提出了一种流数据上的频繁项挖掘算法(SW-COUNT)。该算法通过数据采样技术挖掘滑动窗口下的数据流频繁项。给定的误差ε,SW-COUNT可以在O(ε-1)空间复杂度下,检测误差在εn内的数据流频繁项,对每个数据项的平均处理时间为O(1)。大量的实验证明,该算法比其他类似算法具有较好的精度质量以及时间和空间效率。  相似文献   

15.
基于相关分析的多数据流聚类   总被引:2,自引:0,他引:2  
屠莉  陈崚  邹凌君 《软件学报》2009,20(7):1756-1767
提出基于相关分析的多数据流聚类算法.该算法将多数据流的原始数据快速压缩成一个统计概要.根据这些统计概要,可以增量式地计算相关系数来衡量数据间的相似度.提出了一种改进的k-平均算法来生成聚类结果.改进的k-平均算法可以动态、实时地调整聚类数目,并及时检测数据流的发展变化.还将算法应用到按照用户要求的聚类问题(COD),使得用户可以在任意的时间区间上查询聚类结果.提出了一种合理的时间片断划分机制,使得用户指定的任意时间区间都可以由这些时间片断组合而成.在模拟和真实数据上的实验结果都表明,该算法比其他方法具有更好的聚类质量、速度和稳定性,能够实时地反映数据流的变化.  相似文献   

16.
基于SIMD机器的优化数据传输的并行循环分割   总被引:2,自引:1,他引:2  
本文提出一个基于分布式局存的SIMD机器的循环分割理论体系以优化运算中所需要的数据传输。该体系使用矩阵表示迭代空间、数据空间和数组存取式。我们引入数据传输概念,并建立一个简单有效的数据传输模型来评估数据在全局内存和局部内存之间的传输开销。最后,对于给定的循环嵌套,我们给出一个循环分割算法以获得优化循环块,使得循环嵌套中所需要的数据传输开销最小,并且大大减少了数据传输和计算的同步开销。实验结果证明了  相似文献   

17.
Due to a significant communication overhead of sending and receiving data, the loop partitioning approaches on distributed memory systems must guarantee not just the computation load balance but computation+communication load balance. The previous approaches in loop partitioning have achieved a communication-free, computation load balanced iteration space partitioning solution for a limited subset of DOALL loops. But a large category of DOALL loops inevitably result in communication and the trade-offs between computation and communication must be carefully analyzed for these loops in order to balance out the combined computation time and communication overheads. In this work, we describe a partitioning approach based on the above motivation for the general cases of DOALL loops. Our goal is to achieve a computation+communication load balanced partitioning through static data and iteration space distribution. Our approach first performs partitioning of iteration and data spaces of a loop nest by analyzing communication and parallelism; it then performs architecture-dependent analysis to adjust the granularity of partitions, load balance each partition with respect to total computation+communication, and then performs mapping of partitions onto the available number of processors. This multiphase partitioning method works as follows. First, the code partitioning phase analyzes the references in the body of the DOALL loop nest and determines a set of directions for reducing a larger degree of communication by trading a lesser degree of parallelism. The partitioning is carried out in the iteration space of the loop by cyclically following a set of direction vectors such that the data references are maximally localized and reused, eliminating a larger communication volume than parallelism. We then perform data space partitioning based on a new larger partition owns rule to minimize the communication overhead for a compute intensive partition by localizing its references relatively more than a smaller noncompute intensive partition. A partition interaction graph is then constructed which is used by the architecture-dependent analysis phase to merge the partitions to achieve granularity adjustment, computation+communication load balance, and mapping on the actual number of available processors. Relevant theory and algorithms are developed along with a performance evaluation on the Cray T3D.  相似文献   

18.
A major fraction of ray-tracing computation time is spent on ray-object intersection calculation. To reduce this calculation cost, one method, ARTS, subdivides the 3-D object space into voxels and uses a 3-D line-drawing routine to simulate ray propagation in the subdivided space to select objects for intersection testing. Finer space subdivision gives better object selection resolution and fewer ray-object tests. However, as the subdivision increases, the improvement is offset by a linear degradation of the line-drawing-routine efficiency and a cubic growth of the memory requirement. We solve these time and memory scalability problems in ARTS using an adaptive 3-D line-drawing algorithm, which traverses space with multiple stepsizes, and a hybrid database that employs both the octree and the 3-D array data structures. The space traversal cost in our solution grows logarithmically with the subdivision increase, and the memory requirement grows only linearly.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号