首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
张世红  秦浩 《计算机时代》2013,(6):18-19,22
为了满足地市级移动通信的业务需求,通过对逻辑数据集市和物理数据集市的分析,确定了数据集市的设计思路,构建了数据集市的结构,并设计出数据集市的主题模块。测试表明,其功能模块和增值业务达到了预期效果。  相似文献   

2.
机场货运数据仓库系统的设计与实现   总被引:1,自引:0,他引:1  
按照货运业务的类型,构建了四个数据集市,国内出港数据集市、国内进港数据集市、国际出港数据集市、国际进港数据集市,每个数据集市采用星型结构。对原有的货运数据进行了验证、清理、抽取,抽取的数据是以XML 文件形式出现,利用开发的客户端展示工具对机场货运出港数据进行了多角度分析,为了实现WEB 浏览器方式下安全访问多维数据集,开发了数据仓库访问组件,取得了满意效果。  相似文献   

3.
数据集市的技术和策略   总被引:2,自引:0,他引:2  
随着多元化数据的应用和决策支持系统(DSS)的需求,数据仓库和数据集市正逐步成为国内业界所瞩目的焦点。本文将着重阐述数据集市的特征,目标,数据模型的建立,数据集市集成为集中式数据仓库的实现技术,同时给出基于数据集市的查询策略和实例。  相似文献   

4.
杜炜 《微型电脑应用》1999,15(3):27-30,32
随着多元化数据的应用和决策支持系统的需求,数据仓库和数据集市正逐步成为国内业界所瞩目的焦点。本文将着阐述数据集市的特征,目标,数据模型的建立,数据集市集成集中式数据仓库的实现技术,同时给出基于数据集市的查询策略和实例。  相似文献   

5.
介绍了在物业收费管理系统中建立面向OLAP应用的数据集市;通过构建多维数据集从不同维度,不同粒度上对数据集市中的数据进行查询、分析,帮助企业管理者从自身所关心的角度对企业的历史数据做出正确的分析和评价。  相似文献   

6.
从系统开发环境、体系结构及实现等方面介绍了自行开发的基于数据集市的研究生学位认证系统 ,给出了数据集市的模型结构 ,提出了数据集市数据源的采集以及数据可视化的实现方法  相似文献   

7.
阐述了数据集市的基本概念,并结合实际例子探讨了一种用多维数据库实现数据集市的方法.通过与传统方式组织的数据进行比较,充分体现出数据集市技术在优化查询、提高查询效率方面的优越性.  相似文献   

8.
城镇低保基础信息数据集市的数据模型设计   总被引:1,自引:0,他引:1  
为了加强城市居民最低生活保障 (以下简称低保 )问题的基础信息的科学管理 ,为政府部门提供对低保问题的决策支持 ,将数据集市理论运用于低保基础信息的决策管理。提出了低保基础信息数据集市的数据模型———雪花模型 ,并对数据模型中的事实表、维度表、大维度、粒度、聚集事实表等相关的技术问题进行了细致的探讨 ,对研究并建立低保基础信息数据集市具有参考价值和实际意义。  相似文献   

9.
从系统开发环境、体系结构及实现等方面介绍了自行开发的基于数据集市的研究生学位认证系统。给出数据集市的模型结构,提出数据集市数据源的采集及数据可视化的实现方法。  相似文献   

10.
用多维数据库实现数据集市   总被引:2,自引:0,他引:2  
阐述了数据集市、多维数据库的基本概念 ,探讨了一种用多维数据库实现数据集市的方法  相似文献   

11.
为了实现Web服务请求数据的快速聚类,并提高聚类的准确率,提出一种基于增量式时间序列和任务调度的Web数据聚类算法,该算法进行了Web数据在时间序列上的聚类定义,并采用增量式时间序列聚类方法,通过数据压缩的形式降低Web数据的复杂性,进行基于服务时间相似性的时间序列数据聚类。针对Web集群服务的最佳服务任务调度问题,通过以服务器执行能力为标准来分配服务任务。实验仿真结果表明,相比基于网格的高维数据层次聚类算法和基于增量学习的多目标模糊聚类算法,提出的算法在聚类时间、聚类精度、服务执行成功率上均获得了更好的效果。  相似文献   

12.
基于粒子群优化算法的数据流聚类算法   总被引:1,自引:0,他引:1  
肖裕权  周肆清 《微机发展》2011,(10):43-46,50
针对当前基于滑动窗口的聚类算法中对原始数据信息的损失问题和提高聚类质量和准确性,在现有基于滑动窗口模型数据流聚类算法的基础上,提出了一种基于群体协作的粒子群优化算法(PSO)的新数据流聚类算法。这种优化的新数据流聚类算法利用改进的时间聚类特征指数直方图作为数据流的概要结构以及应用PSO在聚类过程中对聚类质量的局部迭代优化。实验结果表明,此方法有效减少了内存的开销,解决了对原始数据信息损失的问题。与传统的数据流聚类算法相比,基于粒子群优化算法的数据流聚类算法在聚类质量和准确性上明显优于传统的数据流聚类算法。  相似文献   

13.
虚拟环境下大数据智能并行聚类方法研究   总被引:1,自引:1,他引:0  
为了减少虚拟环境下大数据运行时间,数据运行时能够反映出一定的规律性和特殊的分类性,需要对虚拟环境下大数据进行智能并行聚类。当前大数据聚类方法是根据K-均值聚类方法不断地进行大数据样本分类的调整,经过多次计算调整后达到数据并行聚类的效果,但每当有新的大数据流入时,都需要对当前全部数据进行K-均值聚类,计算过程复杂,聚类效率低。为此,提出了一种基于MapReduce的虚拟环境下大数据智能并行聚类方法。首先在虚拟环境下大数据中抽取小规模数据集并确定大数据簇的质心,采用Single法对所抽样的小规模数据进行聚类,获得虚拟环境下大数据属性的均值,利用最小距离分类规则将大数据属性的均值快速地向数据簇的真实中心移动,依据Davies-bouldin指标假设一个数据簇离散度参数,在此参数值中选出大数据智能并行聚类相似度最大值,最后利用聚类相似度最大值得到Davies-bouldin指数,以Davies-bouldin指数为基础将多个类别的质心间距以及聚类离散度指定阈值合并为一个类并进行迭代计算,得到数据最佳聚类中心位置,由此完成虚拟环境下大数据智能并行聚类。仿真实验结果证明,所提方法提高了大数据智能并行聚类的灵活性和普遍适用性,减少了聚类时间,并适合应用于教育技术领域,不仅可以使教育技术网络数据更加合理化,而且更加规范化。  相似文献   

14.
朱林  雷景生  毕忠勤  杨杰 《软件学报》2013,24(11):2610-2627
针对高维数据的聚类研究表明,样本在不同数据簇往往与某些特定的数据特征子集相对应.因此,子空间聚类技术越来越受到关注.然而,现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究中.为此,利用模糊可扩展聚类框架,与熵加权软子空间聚类算法相结合,提出了一种有效的熵加权流数据软子空间聚类算法——EWSSC(entropy-weighting streaming subspace clustering).该算法不仅保留了传统软子空间聚类算法的特性,而且利用了模糊可扩展聚类策略,将软子空间聚类算法应用于流数据的聚类分析中.实验结果表明,EWSSC 算法对于高维数据流可以得到与批处理软子空间聚类方法近似一致的实验结果.  相似文献   

15.
针对传统的聚类算法存在开销大、聚类质量差、聚类速度慢等问题,提出一种新的云计算环境下高复杂度动态数据的增量密度快速聚类算法。首先,依据密度对云计算环境下高复杂度动态数据进行聚类,从数据空间中找到部分子空间,使得数据映射至该空间后可产生高密度点集区域,将连通区域的集合看作聚类结果;其次,通过DBSCAN算法进行增量聚类,并对插入或删除数据导致的原聚类合并或分裂进行研究;最后,在更新的过程中通过改变核心状态数据的邻域中含有的全部核心数据进行处理,从插入或删除数据两方面进行增量聚类分析。实验结果表明,所提算法开销低、聚类速度快、聚类质量高。  相似文献   

16.
章永来  周耀鉴 《计算机应用》2019,39(7):1869-1882
大数据时代,聚类这种无监督学习算法的地位尤为突出。近年来,对聚类算法的研究取得了长足的进步。首先,总结了聚类分析的全过程、相似性度量、聚类算法的新分类及其结果的评价等内容,将聚类算法重新划分为大数据聚类与小数据聚类两个大类,并特别对大数据聚类作了较为系统的分析与总结。此外,概述并分析了各类聚类算法的研究进展及其应用概况,并结合研究课题讨论了算法的发展趋势。  相似文献   

17.
As one of the most important techniques in data mining, cluster analysis has attracted more and more attentions in this big data era. Most clustering algorithms have encountered with challenges including cluster centers determination difficulty, low clustering accuracy, uneven clustering efficiency of different data sets and sensible parameter dependence. Aiming at clustering center determination difficulty and parameter dependence, a novel cluster center fast determination clustering algorithm was proposed in this paper. It is supposed that clustering centers are those data points with higher density and larger distance from other data points of higher density. Normal distribution curves are designed to fit the density distribution curve of density distance product. And the singular points outside the confidence interval by setting the confidence interval are proved to be clustering centers by theory analysis and simulations. Finally, according to these clustering centers, a time scan clustering is designed for the rest of the points by density to complete the clustering. Density radius is a sensible parameter in calculating density for each data point, mountain climbing algorithm is thus used to realize self-adaptive density radius. Abundant typical benchmark data sets are testified to evaluate the performance of the brought up algorithms compared with other clustering algorithms in both aspects of clustering quality and time complexity.  相似文献   

18.
Traditional clustering methods assume that there is no measurement error, or uncertainty, associated with data. Often, however, real world applications require treatment of data that have such errors. In the presence of measurement errors, well-known clustering methods like k-means and hierarchical clustering may not produce satisfactory results.In this article, we develop a statistical model and algorithms for clustering data in the presence of errors. We assume that the errors associated with data follow a multivariate Gaussian distribution and are independent between data points. The model uses the maximum likelihood principle and provides us with a new metric for clustering. This metric is used to develop two algorithms for error-based clustering, hError and kError, that are generalizations of Ward's hierarchical and k-means clustering algorithms, respectively.We discuss types of clustering problems where error information associated with the data to be clustered is readily available and where error-based clustering is likely to be superior to clustering methods that ignore error. We focus on clustering derived data (typically parameter estimates) obtained by fitting statistical models to the observed data. We show that, for Gaussian distributed observed data, the optimal error-based clusters of derived data are the same as the maximum likelihood clusters of the observed data. We also report briefly on two applications with real-world data and a series of simulation studies using four statistical models: (1) sample averaging, (2) multiple linear regression, (3) ARIMA models for time-series, and (4) Markov chains, where error-based clustering performed significantly better than traditional clustering methods.  相似文献   

19.
数据的完整性是数据可用性的重要维度。由于数据采集等过程中存在的问题,现实中的数据往往存在缺失。现有的聚类算法在面对不完整数据时一般采用忽略缺失或填补缺失的策略,但是当数据缺失属于非随机缺失时,这样的处理策略会导致聚类精度严重下降。当数据缺失属于非随机缺失时,数据缺失模式与缺失属性的取值相关,因此在不完整对象的相似度量中加入缺失模式相似的度量,提出了两种结合缺失模式的 PCM(Possibilistic c-means)模糊聚类算法:最小化缺失模式距离之和的 PatDistPCM 算法和基于缺失模式聚类的 PatCluPCM 算法。在两个公开数据集上的实验证明, 考虑缺失模式的模糊聚类PatDistPCM和PatCluPCM算法,在对存在非随机缺失的数据进行聚类时 ,能有效提高聚类结果的准确性。  相似文献   

20.
稀疏子空间聚类综述   总被引:25,自引:7,他引:25  
稀疏子空间聚类(Sparse subspace clustering, SSC)是一种基于谱聚类的数据聚类框架. 高维数据通常分布于若干个低维子空间的并上, 因此高维数据在适当字典下的表示具有稀疏性. 稀疏子空间聚类利用高维数据的稀疏表示系数构造相似度矩阵, 然后利用谱聚类方法得到数据的子空间聚类结果. 其核心是设计能够揭示高维数据真实子空间结构的表示模型, 使得到的表示系数及由此构造的相似度矩阵有助于精确的子空间聚类. 稀疏子空间聚类在机器学习、计算机视觉、图像处理和模式识别等领域已经得到了广泛的研究和应用, 但仍有很大的发展空间. 本文对已有稀疏子空间聚类方法的模型、算法和应用等方面进行详细阐述, 并分析存在的不足, 指出进一步研究的方向.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号