排序方式: 共有105条查询结果,搜索用时 15 毫秒
81.
为了实现自动化的数据质量评估,提出了一种在背景范围内的数据质量量化方法QDC(Quantify Dimensions within Context)。数据质量可以用数据和其对应实体的“完美表达”间的差距来衡量。由于“完美表达”很难获得或代价很高,因此提出在多数据源条件下,数据的“完美表达”可以在其背景范围内用投票获得的“最近似”来替代,从而确定了数据质量评估参照的标准。同时提出利用信息论中信息熵指标,将不同类型数据的质量维度统一为通用的度量。作为一种自动化的数据质量评估方法,QDC方法不仅能够对数据的准确性和完整性维度给出准确的评估值,并且具有很高的计算效率。 相似文献
82.
提出了一种称为Macor的模型来表示嵌套模式之间的映射关系.Macor将一个完整的模式映射表示成众多简单的原子映射,并用关联关系将它们连接在一起.进一步根据XQuery分析了Macor的表达能力,并处理了Macor的实现问题.初步的实验结果表明,通过Macor模型,一个复杂的映射不仅可以按照增量方式逐步建立,还能将修改和维护限制在局部的原子映射和关联关系上. 相似文献
83.
数据仓库在超市中的应用研究以超市连锁店数据仓库的构建为背景,利用数据仓库建模、ETL、OLAP联机分析处理等技术,分析设计了基于数据仓库的决策支持系统,以发现潜在的、有用的关系和模式。这些知识可以有效指导企业经营管理,达到降低运营成本、增加利润和市场份额的目的。 相似文献
84.
本文较为详细地介绍了SUNDDBA中数据分割方案的设计,并以此为例讨论了分布式数据库中有关数据分割的一些主要问题及解决方法,另外,还对现有的分割算法进行了一些分析比较,最后给出了几个SUNDDBA中的实用算法。 相似文献
85.
86.
自适应Web站点:挑战与机遇 总被引:6,自引:0,他引:6
1 引言万维网(World Wide Web)已经成为信息传播、交流与共享的主要媒体。在全球Web站点数目迅速增长的同时,各个Web站点的信息量及其复杂度也在迅速上升,包含成千上万个网页与超链接是很平常的。由于以下的因素,数据密集型Web站点的设计与管理也变得越来越困难: 相似文献
87.
分布式数据流增量聚集 总被引:2,自引:0,他引:2
分布式处理是数据流管理中的主流技术,聚集是分布式数据流系统中一种重要的连续查询类型.在分布式数据流环境中,由于需要连续计算聚集值,并且在分布式网络中连续传送聚集值,导致系统的通信开销非常大.为了有效地减少网络中数据流的传输量,提出了一种近似增量聚集算法(approximately incremental aggregate over distributed data stream,AIADDS).算法增量地计算网络中各个站点的聚集值,只有当聚集值的改变超出给定的阈值才向其他站点传送聚集改变量,这样,可以显著地降低网络的数据传输量.作为算法核心的VSB-Tree能够有效地合并、存储来自孩子站点的聚集值,同时增量地向它的父站点传送聚集改变量.理论分析和实验结果表明,算法是行之有效的. 相似文献
88.
一种大数据量的相似记录检测方法 总被引:12,自引:0,他引:12
大数据量的相似重复记录检测是数据清洗中的一个重要问题,提出一种基于q-gram层次空间的聚类检测方法:它首先将数据映射成q-gram空间中的点,并根据q-gram空间中的相似性度量采用层次聚类方法将相似的重复记录检测出来.它克服了传统的“排序&合并”方法由于字符位置敏感不能将相似记录字符串排在邻近位置的不足和大数量外排序引起I/O代价过大的问题.理论分析和实验表明,方法不仅具有好的检测精度,且有好的伸缩性,能够有效地解决大数据量的相似重复记录检测. 相似文献
89.
90.
Web服务及相关技术 总被引:24,自引:0,他引:24
本文分析了传统分布式计算技术的局限,介绍了新的分布式计算模型Web服务及其相关技术,并与传统分布式计算技术做了比较。 相似文献