期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

冯玉才桂浩李华旸李又奎《小型微型计算机系统》2005,26(6):1018-1022

数据清理的一个主要作用是识别重复的记录．结合过滤算法和启发式剪枝算法提出了启发式剪枝改进算法．然后，针对重复记录的特点提出了长度约束条件，能有效地提高比较字段不等长时的执行速度．数据库中经常会出现各种形式不同的缩写，而启发式剪枝算法等无法识别缩写情况下的重复记录，本文因此提出了基于动态规划的缩写发现算法，该算法既可以用于缩写发现也可用于缩写存在时的重复记录识别．另外，重复记录的甄别目前必须人工处理，传统方式下用户不得不逐条浏览和分析，工作时间冗长而且乏味，容易引入新的数据质量隐患，作者提出了聚类清除方案和聚类闭包算法，它将重复的记录聚类显示，用户一次可以处理完一个重复聚类，在有效提高速度的同时方便了用户．相似文献

2.

数据清理研究 总被引：2，自引：0，他引：2

张志兵李华旸张勇《计算机工程与应用》2004,40(28):164-166

异构数据的数据清理,侧重于重复记录,异常数值的探测,有效地发现数据源中的重复记录、异常等,笔者通过增加过滤条件的方法提高了字符串匹配算法的效率,加快了重复记录的识别,另外在刷新数据仓库的数据提出了增量式算法,有效地减少了比较的次数,节省了大量时间并确保数据仓库中数据的质量。文章实现了一个数据清理工具原型—DMCleaner,并用其进行了试验,结果表明采用了这些改进以后,数据清理的速度、效率和正确性都有了很大的提高,数据质量得到了保证。相似文献

3.

动态数据立方的范围查询

李华旸冯玉才张志斌《小型微型计算机系统》2003,24(11):2020-2023

根据data cube层次性的特点和查询习惯提出了新的分块计算方法，并在此基础上提出了改进算法．这种方法节约了存储空间，在LBD粒度及其上的查询效率为O(1)，同时数据的更新时间大约为O()，还节约了大量的存储空间，并且使得数据立方具有了一定的结构独立性，能有效的减少重新构造数据立方(reprocess)的次数，因而在时间上和效率上有较大的优势．相似文献

4.

基于R-Tree的空间查询代价模型研究 总被引：5，自引：0，他引：5

张志兵王元珍李华旸《小型微型计算机系统》2003,24(6):1017-1020

本文对基于R-Tree的空间查询代价模型进行了探讨，分析了Y．Theodoridis等提出的矩形密度模型^[2，3]，利用其结果提出了代价估计的概率模型，并通过实验验证了概率模型的估计精确度较矩形密度模型有了显著的提高．相似文献

5.

生成具有层次特征XML模式的简化算法

张志兵李华旸李又奎《计算机工程与应用》2005,41(4):185-187,209

XML已经广泛地应用于数据描述及数据交换,然而日常数据的大部分依旧存放在关系型数据库里,因此转换关系数据到XML文档的需求日益增长,如何高效生成用户满意的XML模式是其中的关键。NeT&CoT算法2是近年来提出的可根据给定的关系模式生成具有层次特征的XML的自动转换算法,然而它存在效率不高的问题。因此,该文在NeT&CoT算法的基础上提出了简化算法,通过引入四个简化性质,避免了费时的nest操作,提高了转换效率。相似文献

6.

基于动态规划的缩写发现算法 总被引：1，自引：0，他引：1

李华旸易宝林桂浩《武汉大学学报(工学版)》2004,37(1):128-131

数据清理中重复记录的识别一般采用动态规划算法或过滤算法,然而很少算法考虑了数据中的缩写问题,因此容易漏掉一些重复记录,影响了数据清理的质量,因此在动态规划的基础上提出了缩写发现算法,同已有算法相比,它的算法复杂度较小,而且能够发现汉语等无分隔符的语言中的缩写,最后给出了缩写情况下判断字符串近似匹配的方法. 相似文献