首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 177 毫秒
1.
杜鹃  张卓  曹建春 《计算机应用与软件》2021,38(11):288-294,313
提出一种基于快速无偏分层图抽样的MapReduce负载平衡方法.将聚类算法融合到MapReduce连接操作中,提出MapReduce并行聚类连接算法的实现方法;根据聚类结果动态调整抽样率的无偏分层图抽样算法,从而实现连接操作目标数据的准确、平衡抽样.通过合成数据集和真实数据集下的数据处理实验,与Hash连接算法及基于NS抽样的聚类算法进行对比,验证了所提出的算法方案在不同数据倾斜程度下都具有良好的负载平衡性能,其运行效率也没有因为新采样算法的采用而受到影响.  相似文献   

2.
刘畅  唐达 《软件》2011,32(1):14-17
为了构建传感器网络流数据的概要数据,给出一种改进的加权随机抽样算法:IWRS算法。该算法根据流数据变化的快慢程度,动态的对流数据加权,将权值做为数据项的键值,根据键值大小、skipping因子、退避因子对流数据进行抽样,解决了现有的抽样算法生成的概要数据与原始数据偏离大小不确定以及数据稳定度低的时候生成概要数据效率不高问题。并将该算法应用到深海平台监测系统中,与其他抽样算法相比,该算法在数据变化稳定的情况下能快速的生成概要数据,当监测到数据变化剧烈时,动态改变抽样方式,抽取的概要数据精确性高。  相似文献   

3.
目前软件缺陷预测的研究主要是从历史数据获取来源和预测方法这两方面入手。然而,获取到的软件历史缺陷数据往往是非均衡的,传统的预测方法会给缺陷数据带来极大的误分率。针对这一问题,提出使用基于统计抽样的非均衡分类方法来预测软件缺陷。通过经验性地对比分析12种已有抽样与分类算法组合的预测性能优劣,得到Spread Subsampling和随机森林结合的方法(SP-RF)综合表现最好,但具有较高伪正率(FPR)。为了进一步提高预测性能,针对原始SP-RF方法会对原始数据带来较大的噪音及信息缺失等不足,提出一种基于SP-RF的内置均衡化抽样的自适应随机森林改进算法(IBSBA-RF)。实验表明,IBSBA-RF算法可以显著降低预测结果的FPR,并且进一步提高了预测结果的AUC和Balance值。  相似文献   

4.
数据的不平衡性是软件缺陷预测研究中一个严峻且无法规避的问题,为了解决这一问题,本文提出一种利用分布函数合成新样本的过抽样和随机向下抽样相结合的算法。该算法首先对降维后的主成分进行分布函数拟合,然后利用分布函数生成随机数,并对生成的随机数进行筛选,最后与随机向下抽样相结合。实验所用数据取自NASA MDP数据集,并与经典的SMOTE 向下抽样方法进行对比,从G-mean和F-measure值可以看出前者的预测结果明显优于后者,预测精度更高。  相似文献   

5.
两阶段抽样算法从海量数据集中抽取样本数据用于数据挖掘,当数据集规模过大时算法效率偏低,当数据集规模过大且为稀疏数据集时抽样精度偏低。本文改进了传统两阶段抽样算法,提出新的抽样算法EAFAST,可自适应地调节算法参数,而且能充分利用历史信息进行启发式搜索。实验证明,EAFAST算法可同时提高算法效率和抽样精度,弥补了传统算法的不足。  相似文献   

6.
针对传统的时间序列预测方法在处理复杂丰富的大数据时常面临变量间抽样频率不同、数据相关性复杂等问题,基于Lasso算法和混频数据抽样模型(MIDAS)提出了不改变数据结构的混频时序预测模型Lasso-MIDAS。该模型通过融合MIDAS处理混频信息的机制和Lasso算法的压缩特性来实现估计预测,实时修正对预测最有效的混频变量集;根据常见的正则化方法岭回归设计了Ridge-MIDAS模型用做对比。实验结果表明,Lasso-MIDAS在预测性能上优于标准MIDAS模型及对比模型,验证了该方法在混频时间序列预测方面的有效性。  相似文献   

7.
杨杰  燕雪峰  张德平 《计算机科学》2017,44(8):176-180, 206
Boosting重抽样是常用的扩充小样本数据集的方法,首先针对抽样过程中存在的维数灾难现象,提出随机属性子集选择方法以进行降维处理;进而针对软件缺陷预测对于漏报与误报的惩罚因子不同的特点,在属性选择过程中添加代价敏感算法。以多个基本k-NN预测器为弱学习器,以代价最小为属性删除原则,得到当前抽样集的k值与属性子集的预测器集合,采用代价敏感的权重更新机制对抽样过程中的不同数据实例赋予相应权值,由所有预测器集合构成自适应的集成k-NN强学习器并建立软件缺陷预测模型。基于NASA数据集的实验结果表明,在小样本情况下,基于Boosting的代价敏感软件缺陷预测方法预测的漏报率有较大程度降低,误报率有一定程度增加,整体性能优于原来的Boosting集成预测方法。  相似文献   

8.
传统的协同过滤算法中,依靠用户评分大小计算用户间相似度,但是评分数据稀疏性使相似度计算不够准确。针对此问题,提出了基于评分信息量的相似度计算方法;在推荐系统中项目有多种可选评分,该方法将参与评分的用户数量转换为评分信息量,以此结合用户评分大小计算相似度。实验结果表明,相对于传统协同过滤算法,该方法在一定程度上减少了评分数据稀疏性带来的负面影响,有效地提高了预测评分准确性。  相似文献   

9.
连接操作是大规模数据集在数据分析应用中最常用的操作,针对MapReduce自身不能有效地处理数据倾斜情况下的连接操作,提出了基于MapReduce的频次分类连接算法。根据数据在连接数据集中出现的频率将整个数据集分为3类,对倾斜数据利用分区算法和广播算法实现数据重分布,以消除数据倾斜的影响;对非倾斜数据采用Hash算法实现数据重分布。重分布后的数据在单节点内即可完成数据连接操作,避免了MapReduce框架下连接操作的跨节点传输代价;同时有效地均衡了MapReduce各节点的任务负载,从而提高了数据倾斜状态下连接操作的效率。通过与传统连接算法的对比,证明了所提算法的有效性和实用性。  相似文献   

10.
随着互联网的快速发展,人们对个性化网页搜索、个性化广告投放、个性化社会标注等三维推荐服务的需求越来越紧迫。这些三维立方体数据高度稀疏,且与二维推荐系统相比三维推荐系统中对象之间的关系更加复杂。为了更好地模拟三维对象之间的关系并解决三维数据高度稀疏的问题,提出了一种新的三维协同过滤推荐算法CubeALS(cube alternating least squares)。该算法对三维协同过滤推荐算法CubeSVD(cube singular value decomposition)进行了改进,尝试使用不同于SVD的算法进行矩阵分解。在真实的个性化社会标注数据集上的实验结果表明,与CubeSVD算法相比,CubeALS的性能得到了显著提高。  相似文献   

11.
Discovering trend reversals between two data cubes provides users with a novel and interesting knowledge when the real world context fluctuates: What is new? Which trends appear or emerge? Which tendencies are immersing or disappear? With the concept of Emerging Cube, we capture such trend reversals by enforcing an emergence constraint. We resume the classical borders for the Emerging Cube and introduce a new one which optimizes both storage space and computation time, provides a simple characterization of the size of Emerging Cubes, as well as classification and cube navigation tools. We soundly state the connection between the classical and proposed borders by using cube transversals. Knowing the size of Emerging Cubes without computing them is of great interest in particular for adjusting at best the underlying emergence constraint. We address this issue by studying an upper bound and characterizing the exact size of Emerging Cubes. We propose two strategies for quickly estimate their size: one based on analytical estimation, without database access, and one based on probabilistic counting using the proposed borders as the input of the near-optimal algorithm HyperLogLog. Due to the efficiency of the estimation algorithm various iterations can be performed to calibrate at best the emergence constraint. Moreover, we propose reduced and lossless representations of the Emerging Cube by using the concept of cube closure. Finally, we perform experiments for different data distributions in order to measure on one hand the size of the introduced condensed and concise representations and on the other hand the performance (accuracy and computation time) of the proposed estimation method.  相似文献   

12.
In recent years, grid technology has had such a fast growth that it has been used in many scientific experiments and research centers. A large number of storage elements and computational resources are combined to generate a grid which gives us shared access to extra computing power. In particular, data grid deals with data intensive applications and provides intensive resources across widely distributed communities. Data replication is an efficient way for distributing replicas among the data grids, making it possible to access similar data in different locations of the data grid. Replication reduces data access time and improves the performance of the system. In this paper, we propose a new dynamic data replication algorithm named PDDRA that optimizes the traditional algorithms. Our proposed algorithm is based on an assumption: members in a VO (Virtual Organization) have similar interests in files. Based on this assumption and also file access history, PDDRA predicts future needs of grid sites and pre-fetches a sequence of files to the requester grid site, so the next time that this site needs a file, it will be locally available. This will considerably reduce access latency, response time and bandwidth consumption. PDDRA consists of three phases: storing file access patterns, requesting a file and performing replication and pre-fetching and replacement. The algorithm was tested using a grid simulator, OptorSim developed by European Data Grid projects. The simulation results show that our proposed algorithm has better performance in comparison with other algorithms in terms of job execution time, effective network usage, total number of replications, hit ratio and percentage of storage filled.  相似文献   

13.
Data cubes capture general trends aggregated from multidimensional data from a categorical relation. When provided with two relations, interesting knowledge can be exhibited by comparing the two underlying data cubes. Trend reversals or particular phenomena irrelevant in one data cube may indeed clearly appear in the other data cube. In order to capture such trend reversals, we have proposed the concept of Emerging Cube. In this article, we emphasize on two new approaches for computing Emerging Cubes. Both are devised to be integrated within standard Olap systems, since they do not require any additional nor complex data structures. Our first approach is based on Sql. We propose three queries with different aims. The most efficient query uses a particular data structure merging the two input relations to achieve a single data cube computation. This query works fine even when voluminous data are processed. Our second approach is algorithmic and aims to improve efficiency and scalability while preserving integration capability. The E-Idea algorithm works a´ laBuc and takes the specific features of Emerging Cubes into account. E-Idea is automaton-based and adapts its behavior to the current execution context. Our proposals are validated by various experiments where we measure query response time. Comparative experiments show that E-Idea’s response time is proportional to the size of the Emerging Cube. Experiments also demonstrate that extracting Emerging Cubes can be computed in practice, in a time compatible with user expectations.  相似文献   

14.
李红松  黄厚宽 《软件学报》2006,17(4):806-813
以往在数据立方体上实现的联机聚集往往需要附加空间来存储联机聚集估算所需要的信息,极大地影响了数据立方体的存储和维护性能.提出了基于QC-Tree的用于范围查询处理的联机聚集PE(progressively estimate)算法以及它与简单聚集算法相结合的混合聚集算法HPE(hybrid progressively estimate);还提出了一种能够同时处理多个范围查询的联机聚集算法MPE(multiple progressively estimate).与以往联机聚集算法不同,这些算法不需要任何附加空间,而是利用QC-Tree自身保存的聚集数据和语义关系来估算聚集结果.由于QC-Tree是一种极为高效的数据立方体存储结构,因此能够以较理想的性能实现数据立方体上的联机聚集.对算法的分析和实验结果表明,所提出的算法具有较好的性能.  相似文献   

15.
根据目前数据挖掘研究的现状,分析不确定数据的聚类挖掘算法。针对不确定数据聚类挖掘存在的问题,提出改进传统的数据挖掘算法来适合不确定数据的聚类挖掘或找出新的聚类挖掘算法,来解决不确定数据聚类挖掘问题的新思路。  相似文献   

16.
时间序列数据立方的存储与聚集计算   总被引:1,自引:0,他引:1  
本文讨论了从时序数建造、存储数据立方,以及聚集计算的算法,其中N23算法和扩展的EN23算法可以方便地将一个N(N〉3)维数据方立转换为三维数据立方,大大降低了I/O次数,极大地提高了运行效率。  相似文献   

17.
基于张量模型的参数估计是雷达信号处理的一个发展趋势,然而现有张量算法无法在估计精度和计算复杂度方面达到良好的折衷。为解决上述问题,提出一种三维压缩感知(Three-way compressive sensing,TWCS)的多输入多输出雷达角度估计算法。利用匹配滤波后的信号内部隐含的多维结构,将接收数据堆叠成一个三阶张量模型。为降低高维张量在存储和计算方面的复杂性,利用高阶奇异值分解对高维张量数据进行压缩。其次将压缩后的张量与三线性模型相联系,获取压缩的方向矩阵。利用目标角度在所处背景的稀疏性,设计两个过完备字典,采用优化的方法获取目标角度。由于利用了接收数据的多维结构,TWCS中参数估计的精度要优于传统的子空间算法。此外所提TWCS算法不需要额外配对计算,且能进一步获取目标的多普勒信息。最后,利用仿真实验验证TWCS算法的估计效果。  相似文献   

18.
一种面向三维点集的快速表面重构算法   总被引:8,自引:0,他引:8       下载免费PDF全文
在对目前比较流行的空间三角化算法进行对比研究的基础上 ,对 Hugues Hoppe提出的算法进行了改进 ,即借鉴 Marching Cubes算法的基本思想 ,首先通过自动选取适当的参数 ,用包围盒方法将三维散乱点划分为数据区域 ;然后求取点的切平面及法向 ,同时采用广度优先算法遍历数据点来调整法向和快速地求取 Marching Cubes的等势函数 ;最后用基于查表法的 Marching Cubes来输出三角面片 ,即得到表面模型 .实验结果表明 ,改进后的算法效率有较大的提高 .新算法不仅适用于表面三维散乱点数据 ,也可以对体数据进行重构 ,具有一定的通用性 .  相似文献   

19.
加权关联规则的并行挖掘算法   总被引:4,自引:1,他引:4  
关联规则是数据挖掘的重要研究内容之一,而传统的算法均为串行算法且将数据库项目按平等一致方式加以处理。文章提出了加权关联规则的并行挖掘算法,探讨了相关的数据结构,并对算法进行了定性分析。  相似文献   

20.
当前基于数据挖掘的MIPv6切换算法通过对移动轨迹的关联性挖掘进行有效的移动预测从而实现平滑切换。考虑到移动终端有限的计算能力和存储容量决定了传统的数据挖掘算法并不适用的情况,提出一种低消耗的基于数据挖掘的FMIPv6切换算法(LCTWP-FMIPv6),通过减少对移动轨迹数据集的扫描范围从而减小了数据挖掘过程的计算量与存储空间占用,同时将LCTWP-FMIPv6切换算法android移动终端上进行实现。对比实验结果表明,LCTWP-FMIPv6切换算法在保证移动切换过程平滑与高效的同时在数据挖掘过程中的耗时也比传统数据挖掘算法有明显的减少。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号