首页 | 本学科首页   官方微博 | 高级检索  
     

基于特征的数据规格化方法
引用本文:韩京宇,杨科华,董逸生.基于特征的数据规格化方法[J].计算机应用研究,2008,25(9).
作者姓名:韩京宇  杨科华  董逸生
作者单位:1. 南京邮电大学,计算机学院,南京,210003;东南大学,计算机科学与工程系,南京,210096
2. 东南大学,计算机科学与工程系,南京,210096
摘    要:针对数据清洗时数据的标准化问题提出采用基于特征的马尔可夫模型来解决这一问题.在学习模型的过程中,通过最大熵方法提高样本学习的泛化能力.这种方法能够充分利用数据的重叠特征来辨识数据项对应的状态,结合了统计模型和规则模型的优点.理论分析和实验表明,该方法可以有效地实现数据清洗时的数据规格化.

关 键 词:数据清洗  最大熵  马尔可夫模型  重叠特征

Feature-based data standardization approach
HAN Jing-yu,YANG Ke-hua,DONG Yi-sheng.Feature-based data standardization approach[J].Application Research of Computers,2008,25(9).
Authors:HAN Jing-yu  YANG Ke-hua  DONG Yi-sheng
Affiliation:HAN Jing-yu1,2,YANG Ke-hua2,DONG Yi-sheng2
Abstract:This paper proposed a feature-based Markov model for data standardization during data cleansing. This approach makes use of overlapping features to identify the corresponding state of data items and every state is the result of state-state transition and observation-state transition probability.Thus,this model may combine both advantages of statistical model and rule-based model.Theory and experiment shows that our approach has a good performance for data standardization during data cleansing.
Keywords:data cleansing  maximum entropy  Markov model  overlapping features
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号