首页 | 本学科首页   官方微博 | 高级检索  
     

基于特征的数据规格化方法*
引用本文:韩京宇,杨科华,董逸生.基于特征的数据规格化方法*[J].计算机应用研究,2008,25(9):2679-2683.
作者姓名:韩京宇  杨科华  董逸生
作者单位:(1.南京邮电大学 计算机学院, 南京 210003;2.东南大学 计算机科学与工程系, 南京 210096)
基金项目:江苏省“十五”高科技项目(BG2001013)
摘    要:针对数据清洗时数据的标准化问题提出采用基于特征的马尔可夫模型来解决这一问题。在学习模型的过程中,通过最大熵方法提高样本学习的泛化能力。这种方法能够充分利用数据的重叠特征来辨识数据项对应的状态,结合了统计模型和规则模型的优点。理论分析和实验表明,该方法可以有效地实现数据清洗时的数据规格化。

关 键 词:数据清洗  最大熵  马尔可夫模型  重叠特征

Feature based data standardization approach
HAN Jing yu,YANG Ke hu,DONG Yi sheng.Feature based data standardization approach[J].Application Research of Computers,2008,25(9):2679-2683.
Authors:HAN Jing yu  YANG Ke hu  DONG Yi sheng
Abstract:This paper proposed a feature based Markov model for data standardization during data cleansing . This approach makes use of overlapping features to identify the corresponding state of data items and every state is the result of state state transition and observation state transition probability.Thus,this model may combine both advantages of statistical model and rule based model. Theory and experiment shows that our approach has a good performance for data standardization during data cleansing.
Keywords:data cleansing  maximum entropy  Markov model  overlapping features
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号