首页 | 本学科首页   官方微博 | 高级检索  
     

基于使用信息和聚类方法的多模式集成
引用本文:丁国辉,王国仁,赵宇海.基于使用信息和聚类方法的多模式集成[J].计算机研究与发展,2010,47(5).
作者姓名:丁国辉  王国仁  赵宇海
作者单位:东北大学信息科学与工程学院,沈阳,110004
基金项目:国家自然科学基金项目(60803026,60773219);;国家“八六三”高技术研究发展计划基金项目(2007AA01Z192,2006AA09Z139);;国家教育部新教师基金项目(20070145112);;教育部重大培育基金项目(706016)~~
摘    要:数据集成是解决多数据源整合问题的有效手段.如何准确高效地集成多数据源模式具有重要研究意义.关于模式集成已有大量的研究工作,但均忽略了用户使用信息.在用户使用信息的基础上提出一种新颖的基于聚类技术的多模式数据集成方法.首先从数据库的查询日志中为模式属性提取特征向量,并对其进行聚类.然后根据结果聚类间的最小差异性,为每个结果聚类引入最大相似性阈值,利用该阈值发现结果聚类中与该类语义不相似的异常属性.最后针对结果聚类中的3类异常属性,设计3种异常属性去除规则,进一步提出异常属性去除算法EPKO.实验结果表明,该方法具有较高的准确度,可以有效地解决多个模式的集成问题.

关 键 词:模式匹配  数据集成  特征向量  聚类  异常属性  

Multi-Schema Integration Based on Usage and Clustering Approach
Ding Guohui,Wang Guoren,Zhao Yuhai.Multi-Schema Integration Based on Usage and Clustering Approach[J].Journal of Computer Research and Development,2010,47(5).
Authors:Ding Guohui  Wang Guoren  Zhao Yuhai
Affiliation:College of Information Science and Engineering;Northeastern University;Shenyang 110004
Abstract:Data integration is an effective solution to the problem of multiple data sources consolidation.It is of great importance to integrate schemas of multiple data sources accurately and efficiently.Although there have been a large number of researches on schema integration,they all neglect the history usage information of user which is a very important factor for improving the quality of schemas integration.In this paper,a novel clustering-based multi-schema integration method is proposed,which takes advantage...
Keywords:schema matching  data integration  feature vector  cluster  exceptional points  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号