首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 250 毫秒
1.
非规则流中高维数据流典型相关性分析并行计算方法   总被引:1,自引:0,他引:1  
周勇  卢晓伟  程春田 《软件学报》2012,23(5):1053-1072
为了满足在计算资源受限的环境下高维数据流处理的实时性要求,提出一种方法——基于GPU(graphic processing unit)的非规则流中高维数据流的处理模型和具体的可行架构,并分析设计了相关的并行算法.该六层模型是将GPU处理数据的高宽带性能结合进滑动窗口中数据流的分析,进而在该框架下基于统一计算设备架构(compute unified device architecture,简称CUDA),使用数据立方模型以及降维约简技术并行分析了多条高维数据流的典型相关性.理论分析和实验结果均表明,该并行处理方法能够在线精确地识别同步滑动窗口模式下高维数据流之间的相关性.相对于纯CPU方法,该方法具有显著的速度优势,很好地满足了高维数据流的实时性需求,可以作为通用的分析方法广泛应用于数据流挖掘领域.  相似文献   

2.
基于多粒度树模型的Web站点描述及挖掘算法   总被引:2,自引:0,他引:2  
田永鸿  黄铁军  高文 《软件学报》2004,15(9):1393-1404
随着Web所拥有的信息量和信息种类的急剧增长,Web站点挖掘对于自动实现特定主题的Web资源发现和分类具有重要的意义.然而现有的Web站点分类或挖掘算法在利用上下文语义信息、去除噪声信息以进一步提高分类准确率等方面还缺乏深入研究.从站点的采样尺寸、分析粒度和描述结构3个方面分析了设计高效的Web站点挖掘算法所需要解决的问题.在此基础上,提出了一种新的Web站点多粒度树描述模型,并描述了包括基于隐Markov树的两阶段分类算法、粒度间上下文融合算法、两阶段去噪程序以及基于熵的动态剪枝策略在内的多粒度Web站点挖掘算法.站点的多粒度描述方法及挖掘算法为多站点查询优化、Web效用挖掘等的深入研究奠定了基础.实验表明,该算法相对于基线系统平均可以提高16%的分类准确率,并减少了34.5%的处理时间.  相似文献   

3.
高维流式大数据的产生与发展对传统机器学习和数据挖掘算法提出了诸多挑战。本文结合流式大数据流式到达的特性,首先建立自适应增量特征提取算法模型。然后,针对噪声环境,建立基于特征空间校准的增量流形学习算法模型,解决小样本问题。最后,构造流形学习的正则化优化框架,解决高维数据流特征提取过程中产生的降维误差问题,并得到最终的最优解。实验结果表明本文提出的算法框架符合流形学习算法的3个 评价指标:稳定性、提高性以及学习曲线能迅速增加到一个相对稳定的水平;从而实现了高维数据流的高效学习。  相似文献   

4.
为了满足在计算资源受限的环境下高维数据流处理的实时性要求,提出一种方法——基于 GPU(graphic processing unit)的非规则流中高维数据流的处理模型和具体的可行架构,并分析设计了相关的并行算法。该六层模型是将 GPU 处理数据的高宽带性能结合进滑动窗口中数据流的分析,进而在该框架下基于统一计算设备架构(compute unified device architecture,简称CUDA),使用数据立方模型以及降维约简技术并行分析了多条高维数据流的典型相关性。理论分析和实验结果均表明,该并行处理方法能够在线精确地识别同步滑动窗口模式下高维数据流之间的相关性。相对于纯 CPU 方法,该方法具有显著的速度优势,很好地满足了高维数据流的实时性需求,可以作为通用的分析方法广泛应用于数据流挖掘领域。  相似文献   

5.
图像情感分析是机器视觉领域热点问题,然而情感判断主观性较强,仅分析完整图像难以准确刻画图像中情感语义,且高质量图像情感数据不足.为此,提出联合多头数据增强与多粒度语义挖掘的图像情感分析模型M2.首先,设计多头数据增强方法,基于自动数据增强与主动样本精选策略构建递进式数据增强模型,从“质”与“量”两个角度提升数据集;其次,引入情感区域检测模型完成情感区域增强,深入挖掘图像中情感语义强烈的局部区域,进而联合局部区域与整幅图像构建多粒度图像;然后,基于深度互学习框架及局部区域完成模型预训练,充分挖掘异构SENet网络之间互补的情感语义,并以迁移学习方式指导多粒度图像情感分析;最后,设计自适应特征融合模块,融合异构SENet特征以完成多粒度语义挖掘,实现图像情感分析.在Twitter I和FI数据集上验证M2模型,其准确率分别达到90.97%和81.14%,优于主流基线. M2拥有泛化性更强的数据增强策略,可以为其训练提供坚实的数据基础,且对应的实证分析效果较好,模型具备一定的实用价值.  相似文献   

6.
高维数据挖掘由于特征空间占用开销较大,挖掘的复杂度较高,挖掘精度不高,为了提高对高维数据挖掘的准确性能,提出一种基于相空间重构和K-L变换特征压缩的高维数据挖掘数学建模方法。采用集成学习技术,对高维数据信息流进行相空间重构处理,考虑类间的数据不平衡性,求得高维数据的关联维特征参量,根据数据的链距离进行稀疏性融合,计算高维数据流模型的最大Lyapunove指数谱,根据谱分析方法实现数据聚类,对聚类后的数据采用K-L特征压缩方法进行降维处理,降低数据挖掘的内存及计算开销。仿真结果表明,采用该方法进行高维数据挖掘,数据挖掘的准确概率较高,占用内存消耗较少,计算开销较小。  相似文献   

7.
粒度可调的并行Kriging地层空间插值算法   总被引:2,自引:0,他引:2  
为提高层状地层空间数据插值的计算速度和实现系统负载平衡,在采用动态调整并行粒度策略的基础上开发混合粒度的并行Kriging插值算法.在此算法中,根据CPU与地层层数之间的数量关系动态调整并行计算的粒度,优先使用粗粒度的并行计算策略,同时利用中粒度并行算法平衡负载.基于Windows2000 操作系统搭建了PC机群并行环境,大量的试验统计数据表明该方法具有良好的可扩展性和并行计算效率.  相似文献   

8.
一种基于网格和密度的数据流聚类算法   总被引:1,自引:0,他引:1  
在"数据流分析"这一数据挖掘的应用领域中,常规的算法显得很不适用.主要是因为这些算法的挖掘过程不能适应数据流的动态环境,其挖掘模型、挖掘结果不能满足实际应用中用户的需求.针对这一问题,本文提出了一种基于网格和密度的聚类方法,来有效地完成对数据流的分析任务.该方法打破传统聚类方法的束缚,把整个挖掘过程分为离线和在线两步,最终通过基于网格和密度的聚类方法实现数据流聚类.  相似文献   

9.
概念漂移数据流挖掘算法综述   总被引:1,自引:0,他引:1  
丁剑  韩萌  李娟 《计算机科学》2016,43(12):24-29, 62
数据流是一种新型的数据模型,具有动态、无限、高维、有序、高速和变化等特性。在真实的数据流环境中,一些数据分布是随着时间改变的,即具有概念漂移特征,称为可变数据流或概念漂移数据流。因此处理数据流模型的方法需要处理时空约束和自适应调整概念变化。对概念漂移问题和概念漂移数据流分类、聚类和模式挖掘等内容进行综述。首先介绍概念漂移的类型和常用概念改变检测方法。为了解决概念漂移问题,数据流挖掘中常使用滑动窗口模型对新近事务进行处理。数据流分类常用的模型包括单分类模型和集成分类模型,常用的方法包括决策树、分类关联规则等。数据流聚类方式通常包括基于k- means的和非基于k- means的。模式挖掘可以为分类、聚类和关联规则等提供有用信息。概念漂移数据流中的模式包括频繁模式、序列模式、episode、模式树、模式图和高效用模式等。最后详细介绍其中的频繁模式挖掘算法和高效用模式挖掘算法。  相似文献   

10.
面向数据流的多粒度时变分形维数计算   总被引:1,自引:0,他引:1  
倪志伟  王超  胡汤磊  倪丽萍 《软件学报》2015,26(10):2614-2630
在大数据时代,数据流是一种常见的数据模型,具有有序、海量、时变等特点.分形是许多复杂系统的重要特征,分形维数是度量系统分形特征的重要指标量.数据流作为动态的复杂系统,其上的分形维数应具有动态、时变、多粒度等特性.提出了多粒度时变分形维数的概念,并设计了基于小波变换技术的数据流多粒度时变分形维数算法.该算法通过对数据流进行离散小波变换,并利用多粒度小波变换树结构在内存中保存数据流的概要信息,可以同时在不同的时间粒度上实时地计算数据流时变分形维数.该方法具有较低的计算复杂度,实验结果表明:该方法可以有效地监控数据流分形维数在不同粒度上的时变特征,深刻地揭示数据流的演化规律.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号