首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
将OpenMP程序扩展到异构多核结构时,非本地存储访问会导致访存开销增加,影响程序性能。针对该问题,引入带数组划分信息的数据分布子句,对数据在异构多核存储系统的布局进行管理,提出一种基于并行循环识别和数组引用模式分析的算法,实现该类子句的自动生成。实验结果表明,自动生成的OpenMP程序包含数据分布子句,具有较好的数据局部性,可降低访存开销,在异构多核系统上获得明显的性能提升。  相似文献   

2.
本文提出了一种异构分布式数据库系统中数据语义不一致问题的解决办法。该方法能适用于各种应用环境,综合考虑了属性集成、复合域、空值和多源数据问题,且能对用户提供完全的数据分布透明。  相似文献   

3.
基于投影分层技术的嵌套循环空间局部性优化方法   总被引:3,自引:0,他引:3  
从数据访问轨迹入手,探讨了利用数据变换来改善数据访问局部性的本质,提出了一种新的优化数据访问的投影分层技术以及基于它的数据变换框架.该框架主要利用投影技术来优化数据访问的空间局部性,并同时利用数据分层技术来解决因投影而带来的数据重叠问题.该数据变换框架不仅能处理仿射数组下标,而且还能处理许多非仿射的更复杂的数组下标,同时它还能简单直接地确定数据元素的最优存储布局以及优化数据访问的数据变换短阵,并能使访问间距尽量小.实验结果表明它是有效的.  相似文献   

4.
文章提出了基于超平面的块数组分布策略.这是一种单向的数组分布方法,它以简单的方式有 效解决了不一致计算环境和不规则数组扫描情况下的数组分布问题.它可以作为对传统方法 的一个补充.更重要的是,此项工作为自动数据分布提供了一种思路.  相似文献   

5.
提出了一种面向SIMD机器的全局数据自动分割算法,该算法能处理多个非紧嵌折循环嵌套,并且数组下标存取为循环变量的线性式,首先通过数据与迭代映射抽象了计算中的通信方式,然事提出识别规则模式通信模式的形式比条件,接着建立包含对准信息和相应通信开销的数据迭代图,并在数据迭代图的基础上提出了一个启发式算法来计算较优的数据分布和迭代分布,以优化处理单元之间的通信开销,通过发析多个循环嵌套所涉及的多个数组映和  相似文献   

6.
提出一种基于网格的带有参考参数的聚类算法,通过密度阈值数组的计算,为用户提供有效的参考参数,不但能满足一般的聚类要求,而且还能将高密度的聚类从低密度的聚类中分离出来,解决了传统网格聚类算法在划分网格时很少考虑数据分布导致聚类质量降低的问题。实验仿真表明,该算法能有效处理任意形状和大小的聚类,很好地识别出孤立点或噪声,并且有较好的精度。  相似文献   

7.
并行数据库上的进行CMD—Join算法   总被引:1,自引:1,他引:1  
李建中  都薇 《软件学报》1998,9(4):256-262
并行数据库在多处理机之间的分布方法对并行数据 算法的性能影响很大,如果在设计并行数据操作算法时充分利用数据分布方法的特点,可以得到十分有效的并行算法。本研究如何充分利用数据分布方法的特点,设计并行数据操作算法的问题,提出了基CMD多维数据分布方法的并行CMD-Join算法,理论分析和实验结果表明,并行CMD-Join算法的效率高于其它并行Join算法。  相似文献   

8.
在并行化编译中,代码生成属于编译器的后端,决定着并行程序的执行效率.数据划分将计算循环中被重定义或没被读引用的数据映射到处理器,按照数据划分生成通信代码会产生冗余通信.提出了利用数组数据流分析求解暴露集,并建立计算划分、循环迭代以及暴露集的不等式限制系统,最后通过FME(fourier Motzkin elimination)消元生成数据分布代码的优化算法.测试结果表明该算法对数据分布的优化效果明显.  相似文献   

9.
并行数据库在多处理机之间的分布方法(简称数据分布方法)对并行数据操作算法的性能影响很大.如果在设计并行数据操作算法时充分利用数据分布方法的特点,可以得到十分有效的并行算法.本文研究如何充分利用数据分布方法的特点,设计并行数据操作算法的问题,提出了基于CMD多维数据分布方法的并行CMD_Join算法.理论分析和实验结果表明,并行CMD_Join算法的效率高于其它并行Join算法.  相似文献   

10.
并行数据库上的并行CMD-Join算法   总被引:3,自引:1,他引:3  
李建中  都薇 《软件学报》1998,9(4):256-262
并行数据库在多处理机之间的分布方法(简称数据分布方法)对并行数据操作算法的性能影响很大.如果在设计并行数据操作算法时充分利用数据分布方法的特点,可以得到十分有效的并行算法.本文研究如何充分利用数据分布方法的特点,设计并行数据操作算法的问题,提出了基于CMD多维数据分布方法的并行CMD-Join算法.理论分析和实验结果表明,并行CMD-Join算法的效率高于其它并行Join算法.  相似文献   

11.
基于数据空间融合的全局计算与数据划分方法   总被引:2,自引:1,他引:2  
夏军  杨学军 《软件学报》2004,15(9):1311-1327
计算与数据划分问题是影响并行程序在分布主存多处理机中执行性能的重要因素,也是并行编译优化的重点.针对该问题,提出了一套关于数据空间融合的理论框架,并基于该框架给出了一种有效的全局计算与数据划分方法,用于分布主存计算环境中的计算与数据划分问题的求解.该方法能够尽量开发计算空间的并行度,利用数据融合技术优化数据分布,并能搜寻优化的全局计算与数据划分.该方法还能很自然地与数据复制以及偏移常量的对准结合在一起,从而使得数据通信量尽可能地小.实验结果表明了所提出方法的有效性.  相似文献   

12.
The discovery of structures hidden in high-dimensional data space is of great significance for understanding and further processing of the data. Real world datasets are often composed of multiple low dimensional patterns, the interlacement of which may impede our ability to understand the distribution rule of the data. Few of the existing methods focus on the detection and extraction of the manifolds representing distinct patterns. Inspired by the nonlinear dimensionality reduction method ISOmap, in this paper we present a novel approach called Multi-Manifold Partition to identify the interlacing low dimensional patterns. The algorithm has three steps: first a neighborhood graph is built to capture the intrinsic topological structure of the input data, then the dimensional uniformity of neighboring nodes is analyzed to discover the segments of patterns, finally the segments which are possibly from the same low-dimensional structure are combined to obtain a global representation of distribution rules. Experiments on synthetic data as well as real problems are reported. The results show that this new approach to exploratory data analysis is effective and may enhance our understanding of the data distribution.  相似文献   

13.
基于模糊关联空间的数据过滤方法   总被引:3,自引:1,他引:3  
该文提出了一种适用于大规模分布式虚拟环境的新的数据过滤方法,以解决传统过滤方法由于基于区域划分、采用组播技术而造成的效率低、稳定性差的问题。该文提出了实体关联度的概念,并在分布式虚拟环境中建立模糊关联空间,把数据过滤问题转化为在模糊关联空间中求取关联实体集的问题;最后通过实验数据和理论分析,证明基于模糊关联空间的数据过滤方法可以有效地解决传统过滤技术中存在的一系列问题,提高数据过滤的效率和稳定性。  相似文献   

14.
基于用户行为和会话的Web应用测试方法   总被引:2,自引:2,他引:0       下载免费PDF全文
Web应用程序难以创建有效的测试用例,使其既能满足测试的需求,又能测试Web应用程序的多用户交互行为。针对上述问题,采用从Web日志数据中得到域数据创建测试用例的方法,从Web日志中获取用户行为数据和用户会话数据。提出一种基于用户行为和用户会话的测试新方法,通过实验验证该方法在功能覆盖和故障检测方面的有效性。  相似文献   

15.
非平衡数据集的分类问题是机器学习领域的一个研究热点。针对非平衡数据集分类困难的问题,特别是由于非平衡分布引起的少数类识别能力低下的问题,提出了一种改进算法,AdaBoost-SVM-OBMS。该算法结合Boosting算法和基于错分样本产生新样本的过抽样技术。在新算法中,以支持向量机为元分类器,每次Boosting迭代中标记出错分的样本点,然后在错分样本点与其近邻间随机产生一定数量与错分样本同一类别的新样本点。新产生样本点加入原训练集中重新训练学习,以提高分类困难样本的识别能力。在AUC,F-value和G-mean 3个不同价格的评价指标下8个benchmark数据集上对AdaBoost-SVM-OBMS算法与AdaBoost-SVM算法和APLSC算法进行了对比实验,实验结果表明了AdaBoost-SVM-OBMS算法在非平衡数据集分类中的有效性。  相似文献   

16.
Distributed data mining implements techniques for analyzing data on distributed computing systems by exploiting data distribution and parallel algorithms. The grid is a computing infrastructure for implementing distributed high‐performance applications and solving complex problems, offering effective support to the implementation and use of data mining and knowledge discovery systems. The Web Services Resource Framework has become the standard for the implementation of grid services and applications, and it can be exploited for developing high‐level services for distributed data mining applications. This paper describes how distributed data mining patterns, such as collective learning, ensemble learning, and meta‐learning models, can be implemented as Web Services Resource Framework mining services by exploiting the grid infrastructure. The goal of this work was to design a distributed architectural model that can be exploited for different distributed mining patterns deployed as grid services for the analysis of dispersed data sources. In order to validate such an approach, we presented also the implementation of two clustering algorithms on the developed architecture. In particular, the distributed k‐means and distributed expectation maximization were exploited as pilot examples to show the suitability of the implemented service‐oriented framework. An extensive evaluation of its performance was provided. Copyright © 2011 John Wiley & Sons, Ltd.  相似文献   

17.
一种大数据环境中分布式辅助关联分类算法   总被引:4,自引:0,他引:4  
张明卫  朱志良  刘莹  张斌 《软件学报》2015,26(11):2795-2810
在很多现实的分类应用中,新数据的类标需要由领域专家最终确定,而分类器的分类结果仅起辅助作用.另外,随着大数据所隐含价值越发被人们重视,分类器的训练会从面向单一数据集逐渐过渡到面向分布式空间数据集,大数据环境下辅助分类也将成为未来分类应用的重要分支.然而,现有的分类研究缺乏对此类应用的关注.大数据环境中的辅助分类面临以下3个问题:1) 训练集是分布式大数据集;2) 在空间上,训练集所包含的各局部数据源的类别分布不尽相同;3) 在时间上,训练集是动态变化的,会发生类别迁移现象.在考虑以上问题的基础上,提出一种大数据环境中分布式辅助关联分类方法.该方法首先给出一种大数据环境中分布式关联分类器构建算法,在该算法中,通过横向加权考虑分类数据集在空间上的类别分布差异,并给出"前件空间支持度-相关系数"的度量框架,改进关联分类算法面对不平衡数据的性能缺陷;然后,给出一种基于适应因子的辅助关联分类器动态调整方法,能够在分类器应用过程中充分利用领域专家实时反馈的结果对分类器进行动态调整,以提升其面向动态数据集的分类性能,减缓分类器的退化和重新训练的频率.实验结果表明,该方法能够面向分布式数据集较快地训练出有较高分类准确率的关联分类器,并在数据集不断扩充变化时提升分类性能,是一种有效的大数据环境中辅助分类应用方法.  相似文献   

18.
本文为解决目前配电网前端数据数量大、缺省多、分析复杂等问题,提出一种适用于主动配电网的状态估计算法来管理分析前端数据。本文提出了基于决策树自标识的主动配电网状态估计算法,通过估计前预处理数据,对数据进行分类以及修正,使输入状态估计模型中的数据有更好的相容性。同时,本文针对分布式能源配套量测装置少的问题,建立了考虑分布式电源的状态估计模型,对分布式能源缺省数据进行补全修正,提高输入数据的质量。该方法运用到实际算例中可以看出,对比传统的状态估计,基于决策树自标识的主动配电网状态估计算法有更好的估计效果以及更快的迭代速度。因此本文提出的算法能有效的运用到当前大规模分布式能源接入的配电网状态估计中。  相似文献   

19.
用电数据涉及客户隐私,在分发共享过程中存在泄露风险,数字水印是实现泄露溯源追责的有效手段。而水印植入将导致数据偏移,影响数据分析可用性,且部分数据泄漏时溯源效果不够理想。本文提出一种基于子水印和属性筛选的用电数据泄露溯源算法WRTA,该方法通过利用信息增益率和基尼系数计算数据属性的重要程度,通过密钥和主键随机选择非重要属性来构建子水印,并且兼顾数据分析可用性和安全性,实现部分数据泄露的溯源。  相似文献   

20.
针对网络带宽给数据分发带来的限制以及传统数据分发方法的不足,本文提出了一种基于树结构的分布式数据流水分发方法。该方法利用接收端的转发能力,采用流水式传输方式进行数据传输,以提高数据分发的整体效率。算法分析和实验数据表明,本文的方法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号