首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
基于Storm的海量数据实时聚类   总被引:1,自引:0,他引:1  
针对现有平台处理海量数据实时响应能力普遍较差的问题,引入Storm分布式实时计算平台进行大规模数据的聚类分析,设计了基于Storm框架的DBSCAN算法。该算法将整个过程分为数据接入、聚类分析、结果输出等阶段,在框架预定义的组件中分别编程实现,各组件通过数据流连通形成任务实体,提交到集群运行完成。通过对比分析和性能监测,验证了所提方案具有低延迟和高吞吐量的优势,集群运行状况良好,负载均衡。实验结果表明Storm平台处理海量数据实时性较高,能够胜任大数据背景下的数据挖掘任务。  相似文献   

2.
海量短语信息文本聚类技术研究   总被引:1,自引:0,他引:1       下载免费PDF全文
信息技术的发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本聚类技术对于从海量短文中自动获取知识具有重要意义。现有的一般文本挖掘方法很难处理TB级的海量数据。由于短文本中的关键词出现次数少,文本挖掘的精度很难保证。该文提出了一种基于频繁词集并结合语义信息的并行聚类算法来解决海量短语信息的聚类问题。实验表明,该方法在处理海量短语信息时具有很好的性能和准确度。  相似文献   

3.
随着现代科技和传感器的发展和应用,复杂多变的空间数据日益膨胀。为了有效地使用这些海量数据,不仅需要搜索元数据而且包括实际数据。要想通过扫描这些海量数据来回答值域查询显而易见是不现实的。该文研究了一种数据直方图聚类技术,用于栅格地球科学数据值域查询。实验表明,该方法不仅可以快速近似地回答统计范围查询,同时可以给出准确评价。  相似文献   

4.
本文把一个求解高维空间数据聚类问题转换为一个超图分割寻优问题,提出一种基于超图模式的高维空间数据聚类方法.该方法不需要减少高维空间数据项的维数,直接用超图模式描述原始数据之间的关系,并能通过选择适当的支持度阈值,有效去除噪声点,保证数据聚类的质量.  相似文献   

5.
一种基于超图模式的高维空间数据聚类方法   总被引:7,自引:0,他引:7  
张蓉  彭宏 《计算机工程》2002,28(7):54-55,164
把一个救解高维空间数据聚类问题的转换为一个超图分割寻优问题,提出了一种基于超图模式的高维空间数据聚类方法,该方法不需要减少高维空间数据顶的维数,直接用超图模式描述原始数据之间的关系,并通过选择适当的支持度阈值,有效祛除噪声点,保证数据聚类的质量。  相似文献   

6.
为实时显示三维数据体的海量数据,提出一种改进的海量数据快速显示算法。利用CURE聚类算法对数据进行整理,通过Hilbert R-tree对数据建立索引,根据可视化区域预测模型预测下一时刻的可视区域,以实现大量数据的快速可视化。实验结果表明,与基于视点运动的快速显示算法和基于可见性判断的可视化算法相比,该算法在不降低渲染质量的前提下,渲染速度分别提高18.27%和67.06%,预测区域错误率分别降低9.73%和22.37%,能够快速加载数据并且准确绘制大量三维数据体。  相似文献   

7.
针对集中式系统框架难以进行海量数据聚类分析的问题,提出基于MapReduce的K-means聚类优化算法。该算法运用MapReduce并行编程框架,引入Canopy聚类,优化K-means算法初始中心的选取,改进迭代过程中通信和计算模式。实验结果表明该算法能够有效地改善聚类质量,具有较高的执行效率以及优良的扩展性,适合用于海量数据的聚类分析。  相似文献   

8.
对信用卡客户进行评级以提供更有针对性的服务是银行卡产业链的核心工作,对于银行以及银行卡组织有其重要的意义。目前,信用卡的评级工作多借助于对历史数据的观察和统计,人工决策参与程度高,信息利用率低下。利用信用卡交易记录得到的海量数据资源,使用基于传统方法改进的聚类算法对信用卡进行评级。改进的聚类方法通过重复迭代实现不同等级信用卡的最合适分离方案,并同时可以实现对高风险信用卡的规避,提高了信息利用率,并取得了较为理想的效果。  相似文献   

9.
10.
现有聚类方法在提取关键帧时存在着划分敏感、无法表达镜头内大量帧图像高次相关关系等问题。鉴于此,提出基于概率超图聚类的关键帧提取方法。该方法首先构建镜头帧概率超图,然后使用概率超图谱的聚类学习算法对镜头中的帧图像进行聚类,最后选取各聚类中心的帧图片作为该镜头的关键帧。实验表明,该方法计算简单,所提取的关键帧准确性高,提取结果能够更好地反映视频的主要内容。  相似文献   

11.
New Algorithm for Computing Cube on Very Large Compressed Data Sets   总被引:2,自引:0,他引:2  
Data compression is an effective technique to improve the performance of data warehouses. Since cube operation represents the core of online analytical processing in data warehouses, it is a major challenge to develop efficient algorithms for computing cube on compressed data warehouses. To our knowledge, very few cube computation techniques have been proposed for compressed data warehouses to date in the literature. This paper presents a novel algorithm to compute cubes on compressed data warehouses. The algorithm operates directly on compressed data sets without the need of first decompressing them. The algorithm is applicable to a large class of mapping complete data compression methods. The complexity of the algorithm is analyzed in detail. The analytical and experimental results show that the algorithm is more efficient than all other existing cube algorithms. In addition, a heuristic algorithm to generate an optimal plan for computing cube is also proposed  相似文献   

12.
针对大规模日志数据的聚类问题,提出了DBk-means算法.该算法使用Hadoop对原始日志数据进行预处理,并结合了k-means和DBSCAN聚类算法各自的优势.实验结果表明,相比k-means算法进行聚类分析,文中使用DBk-means算法进行聚类,能够取得更好的聚类效果,正确率可以达到83%以上.  相似文献   

13.
传统的K-means算法对初始聚类中心非常敏感,聚类结果随不同的初始输入而波动,算法的稳定性下降。针对这个问题,提出了一种优化初始聚类中心的新算法:在数据对象的模糊粒度空间上给定一个归一化的距离函数,用此函数对所有距离小于粒度d_λ的数据对象进行初始聚类,对初始聚类簇计算其中心,得到一组优化的聚类初始值。实验对比证明,新算法有效地消除了传统K-means算法对初始输入的敏感性,提高了算法的稳定性和准确率。  相似文献   

14.
胡明  曾联明 《现代计算机》2010,(7):16-19,23
针对SVM分类过程中,处理大规模训练样本集遇到的因样本维度高、消耗大量内存导致分类效率低下的问题,提出基于网格环境的计算策略。该策略针对密集型计算问题分别提出按步骤、按功能、按数据进行任务分解的三种解决方案。用户根据SVM样本训练和分类的实际来选择使用哪一种方案。对遥感数据分别在单机环境和网格环境的对比实验表明,能够提高训练和分类速度,在计算环境的层面弥补处理大规模数据对计算性能的高要求。  相似文献   

15.
传统的主曲线算法已被广泛应用到很多领域,但在复杂数据的主曲线提取上效果不佳,而有效的融合粒计算与主曲线学习算法是解决该类问题最有效的途径之一。为此,本文提出了基于粒计算的复杂数据多粒度主曲线提取算法。首先,利用基于t最近邻(T-nearest-neighbors, TNN)的谱聚类算法对数据进行粒化,提出拐点估计方法来自动确定粒的个数;然后调用软K段主曲线算法对每个粒进行局部主曲线提取,并提出通过消除假边来优化每个粒的主曲线提取过程;最后采用局部到全局的策略进行多粒度主曲线提取,并对过拟合线段进行优化,最终形成一条能较好描述数据原始分布形态的主曲线。实验结果表明该算法是一种行之有效的多粒度主曲线提取算法。  相似文献   

16.
Computing LTS Regression for Large Data Sets   总被引:9,自引:0,他引:9  
Data mining aims to extract previously unknown patterns or substructures from large databases. In statistics, this is what methods of robust estimation and outlier detection were constructed for, see e.g. Rousseeuw and Leroy (1987). Here we will focus on least trimmed squares (LTS) regression, which is based on the subset of h cases (out of n) whose least squares fit possesses the smallest sum of squared residuals. The coverage h may be set between n/2 and n. The computation time of existing LTS algorithms grows too much with the size of the data set, precluding their use for data mining. In this paper we develop a new algorithm called FAST-LTS. The basic ideas are an inequality involving order statistics and sums of squared residuals, and techniques which we call ‘selective iteration’ and ‘nested extensions’. We also use an intercept adjustment technique to improve the precision. For small data sets FAST-LTS typically finds the exact LTS, whereas for larger data sets it gives more accurate results than existing algorithms for LTS and is faster by orders of magnitude. This allows us to apply FAST-LTS to large databases.  相似文献   

17.
将高维的大数据集随机分成若干个子集,对每个子集聚类采用一种基于遗传算法的高维数据模糊聚类方法。该方法引入了一个模糊非相似矩阵来表示高维样本之间的非相似程度,并将高维样本随机初始化到二维平面,利用遗传算法迭代优化二维样本的坐标值,实现二维样本之间的欧氏距离向样本间的模糊非相似度的趋近。将得到的最优的二维样本用模糊C-均值聚类(FCM)算法聚类,克服了聚类有效性对高维样本空间分布的依赖。实验仿真表明,该算法有较好的聚类效果,且极大地提高了聚类的速度。  相似文献   

18.
基于粗糙集的数据聚类方法研究   总被引:2,自引:0,他引:2  
RoughSets理论是一种新型的处理含糊和不确定性知识的数学工具,将RoughSets理论应用于知识发现中的聚类分析,给出了信息系统的约简、信息系统的可辨识属性矩阵和信息系统的辨识公式等定义,在此基础上提出了基于粗糙集的数据聚类算法RSDC,实验结果验证了该算法的可行性,并且对符号属性和数值属性数据都具有良好的聚类效果。  相似文献   

19.
20.
基于粒度计算的数据分类建模研究*   总被引:1,自引:1,他引:0  
基于粒度计算在理论上对数据分类问题进行建模研究.引入全粒度空间的概念,给出了集合的粒度表示、概念学习在粒度计算理论中的解释,从而得到数据分类问题的机理分析;最后导出了基于数据分类的知识发现模型,为知识发现面临的问题提供解决的理论依据,也为进一步研究奠定了重要的理论基础.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号