排序方式: 共有3条查询结果,搜索用时 15 毫秒
1
1.
2.
一种高效的检测相似重复记录的方法 总被引:33,自引:0,他引:33
如何消除数据库中的重复信息是数据质量研究中的一个热课题。文中提出了一种高效的基于N-Gram的检测相似重复记录的方法,主要工作有:(1)提出了一种高效的基于N-Gram的聚类算法,该算法能适应常见的拼写错误从而较好地聚类相似重复记录,复杂度仅为O(N);同时提出该算法的改进形式,使其在检测的同时能自动校正单词的插入、删除错误、提高检测精度。(2)采用了一种高效的应用无关的Pair-wise比较算法,该算法以单词间的编辑距离为基础,通过计算两记录中单间的编辑距离来判断记录的相似与否。(3)给出了一种改进的优先队列算法来准确地聚类相似重复记录,该算法使用固定大小的优先队列顺序扫描已排序的记录,通过比较当前记录和队列中记录的距离来聚类相似重复记录,此外,该文构造了合适的实验环境并作了大量的算法实验,在此基础上,文中分析了大量、翔实的实验结果从而验证了算法的科学性。 相似文献
3.
数据库技术:回顾与展望 总被引:6,自引:0,他引:6
数据库系统的研究和开发在其三十年的历史中取得了巨大的成功,形成了一个数百亿美元的产业。数据库技术和系统的应用已经遍及各个领域,奠定了数据库系统作为当今社会信息基础设施核心技术的地位。尽管如此,数据库的研究和发展一刻也来曾停止过,传统的研究主要集中在增强和提高数据库管理系统(DBMS)的功能和性能上。但是,DBMS作为管理大容量数据的工具无疑会受到所管理的对象和所应用的环境的影响。目前,数据库系统要管理的对象不再局限于传统数据库所增长管理的结构化数 相似文献
1