共查询到20条相似文献,搜索用时 93 毫秒
1.
基于Storm的海量数据实时聚类 总被引:1,自引:0,他引:1
针对现有平台处理海量数据实时响应能力普遍较差的问题,引入Storm分布式实时计算平台进行大规模数据的聚类分析,设计了基于Storm框架的DBSCAN算法。该算法将整个过程分为数据接入、聚类分析、结果输出等阶段,在框架预定义的组件中分别编程实现,各组件通过数据流连通形成任务实体,提交到集群运行完成。通过对比分析和性能监测,验证了所提方案具有低延迟和高吞吐量的优势,集群运行状况良好,负载均衡。实验结果表明Storm平台处理海量数据实时性较高,能够胜任大数据背景下的数据挖掘任务。 相似文献
2.
3.
4.
本文把一个求解高维空间数据聚类问题转换为一个超图分割寻优问题,提出一种基于超图模式的高维空间数据聚类方法.该方法不需要减少高维空间数据项的维数,直接用超图模式描述原始数据之间的关系,并能通过选择适当的支持度阈值,有效去除噪声点,保证数据聚类的质量. 相似文献
5.
一种基于超图模式的高维空间数据聚类方法 总被引:7,自引:0,他引:7
把一个救解高维空间数据聚类问题的转换为一个超图分割寻优问题,提出了一种基于超图模式的高维空间数据聚类方法,该方法不需要减少高维空间数据顶的维数,直接用超图模式描述原始数据之间的关系,并通过选择适当的支持度阈值,有效祛除噪声点,保证数据聚类的质量。 相似文献
6.
为实时显示三维数据体的海量数据,提出一种改进的海量数据快速显示算法。利用CURE聚类算法对数据进行整理,通过Hilbert R-tree对数据建立索引,根据可视化区域预测模型预测下一时刻的可视区域,以实现大量数据的快速可视化。实验结果表明,与基于视点运动的快速显示算法和基于可见性判断的可视化算法相比,该算法在不降低渲染质量的前提下,渲染速度分别提高18.27%和67.06%,预测区域错误率分别降低9.73%和22.37%,能够快速加载数据并且准确绘制大量三维数据体。 相似文献
7.
针对集中式系统框架难以进行海量数据聚类分析的问题,提出基于MapReduce的K-means聚类优化算法。该算法运用MapReduce并行编程框架,引入Canopy聚类,优化K-means算法初始中心的选取,改进迭代过程中通信和计算模式。实验结果表明该算法能够有效地改善聚类质量,具有较高的执行效率以及优良的扩展性,适合用于海量数据的聚类分析。 相似文献
8.
《计算机应用与软件》2015,(8)
对信用卡客户进行评级以提供更有针对性的服务是银行卡产业链的核心工作,对于银行以及银行卡组织有其重要的意义。目前,信用卡的评级工作多借助于对历史数据的观察和统计,人工决策参与程度高,信息利用率低下。利用信用卡交易记录得到的海量数据资源,使用基于传统方法改进的聚类算法对信用卡进行评级。改进的聚类方法通过重复迭代实现不同等级信用卡的最合适分离方案,并同时可以实现对高风险信用卡的规避,提高了信息利用率,并取得了较为理想的效果。 相似文献
9.
10.
《计算机应用与软件》2013,(4)
现有聚类方法在提取关键帧时存在着划分敏感、无法表达镜头内大量帧图像高次相关关系等问题。鉴于此,提出基于概率超图聚类的关键帧提取方法。该方法首先构建镜头帧概率超图,然后使用概率超图谱的聚类学习算法对镜头中的帧图像进行聚类,最后选取各聚类中心的帧图片作为该镜头的关键帧。实验表明,该方法计算简单,所提取的关键帧准确性高,提取结果能够更好地反映视频的主要内容。 相似文献
11.
Weili Wu Hong Gao Jianzhong Li 《Knowledge and Data Engineering, IEEE Transactions on》2006,18(12):1667-1680
Data compression is an effective technique to improve the performance of data warehouses. Since cube operation represents the core of online analytical processing in data warehouses, it is a major challenge to develop efficient algorithms for computing cube on compressed data warehouses. To our knowledge, very few cube computation techniques have been proposed for compressed data warehouses to date in the literature. This paper presents a novel algorithm to compute cubes on compressed data warehouses. The algorithm operates directly on compressed data sets without the need of first decompressing them. The algorithm is applicable to a large class of mapping complete data compression methods. The complexity of the algorithm is analyzed in detail. The analytical and experimental results show that the algorithm is more efficient than all other existing cube algorithms. In addition, a heuristic algorithm to generate an optimal plan for computing cube is also proposed 相似文献
12.
13.
14.
针对SVM分类过程中,处理大规模训练样本集遇到的因样本维度高、消耗大量内存导致分类效率低下的问题,提出基于网格环境的计算策略。该策略针对密集型计算问题分别提出按步骤、按功能、按数据进行任务分解的三种解决方案。用户根据SVM样本训练和分类的实际来选择使用哪一种方案。对遥感数据分别在单机环境和网格环境的对比实验表明,能够提高训练和分类速度,在计算环境的层面弥补处理大规模数据对计算性能的高要求。 相似文献
15.
传统的主曲线算法已被广泛应用到很多领域,但在复杂数据的主曲线提取上效果不佳,而有效的融合粒计算与主曲线学习算法是解决该类问题最有效的途径之一。为此,本文提出了基于粒计算的复杂数据多粒度主曲线提取算法。首先,利用基于t最近邻(T-nearest-neighbors, TNN)的谱聚类算法对数据进行粒化,提出拐点估计方法来自动确定粒的个数;然后调用软K段主曲线算法对每个粒进行局部主曲线提取,并提出通过消除假边来优化每个粒的主曲线提取过程;最后采用局部到全局的策略进行多粒度主曲线提取,并对过拟合线段进行优化,最终形成一条能较好描述数据原始分布形态的主曲线。实验结果表明该算法是一种行之有效的多粒度主曲线提取算法。 相似文献
16.
Computing LTS Regression for Large Data Sets 总被引:9,自引:0,他引:9
Data mining aims to extract previously unknown patterns or substructures from large databases. In statistics, this is what
methods of robust estimation and outlier detection were constructed for, see e.g. Rousseeuw and Leroy (1987). Here we will focus on least trimmed squares (LTS) regression, which is based on the subset of h cases (out of n) whose least squares fit possesses the smallest sum of squared residuals. The coverage h may be set between n/2 and n. The computation time of existing LTS algorithms grows too much with the size of the data set, precluding their use for data
mining. In this paper we develop a new algorithm called FAST-LTS. The basic ideas are an inequality involving order statistics
and sums of squared residuals, and techniques which we call ‘selective iteration’ and ‘nested extensions’. We also use an
intercept adjustment technique to improve the precision. For small data sets FAST-LTS typically finds the exact LTS, whereas
for larger data sets it gives more accurate results than existing algorithms for LTS and is faster by orders of magnitude.
This allows us to apply FAST-LTS to large databases. 相似文献
17.
18.
基于粗糙集的数据聚类方法研究 总被引:2,自引:0,他引:2
RoughSets理论是一种新型的处理含糊和不确定性知识的数学工具,将RoughSets理论应用于知识发现中的聚类分析,给出了信息系统的约简、信息系统的可辨识属性矩阵和信息系统的辨识公式等定义,在此基础上提出了基于粗糙集的数据聚类算法RSDC,实验结果验证了该算法的可行性,并且对符号属性和数值属性数据都具有良好的聚类效果。 相似文献
19.