首页 | 本学科首页   官方微博 | 高级检索  
     

基于Hellinger距离的混合数据集中分类变量相似度分析
引用本文:赵亮,刘建辉,王星.基于Hellinger距离的混合数据集中分类变量相似度分析[J].计算机科学,2016,43(6):280-282, 307.
作者姓名:赵亮  刘建辉  王星
作者单位:辽宁工程技术大学研究生学院 阜新123000,辽宁工程技术大学电子与信息工程学院 葫芦岛125000,辽宁工程技术大学电子与信息工程学院 葫芦岛125000
基金项目:本文受国家自然科学基金项目:语义Web模糊规则互换与推理关键技术研究(61402212)资助
摘    要:分类变量的相似度分析是数据挖掘任务中的一个重要环节,现有的分类变量相似度算法中存在忽视变量差异、受不均衡分布影响严重、无法应用于混合数据集等缺点。为克服以上缺点,提出了一种基于Hellinger距离的分类变量相似度算法。该算法累加分类变量对应子集中不同属性变量的分布差异作为相似度,且支持混合数据集。将所提算法代入聚类算法并应用于UCI公共数据集,结果表明,该算法在准确度、有效性和稳定性上都有较大提高。

关 键 词:分类变量  相似度  f散度  Hellinger距离
收稿时间:2015/5/17 0:00:00
修稿时间:2015/9/29 0:00:00

Hellinger Distance Based Similarity Analysis for Categorical Variables in Mixture Dataset
ZHAO Liang,LIU Jian-Hui and WANG Xing.Hellinger Distance Based Similarity Analysis for Categorical Variables in Mixture Dataset[J].Computer Science,2016,43(6):280-282, 307.
Authors:ZHAO Liang  LIU Jian-Hui and WANG Xing
Affiliation:Institute of Graduate,Liaoning Technical University,Fuxin 123000,China,School of Electronic and Information Engineering,Liaoning Technical University,Huludao 125000,China and School of Electronic and Information Engineering,Liaoning Technical University,Huludao 125000,China
Abstract:Similarity analysis of categorical variables is an important part of data mining.The traditional methods have the defects of neglecting the difference between categorical variables,which are seriously affected by unbalanced dataset and can not be used in mixture dataset.To overcome the shortcomings mentioned above,this paper proposed an algorithm to measure the similarity between categorical variables based on the Hellinger distance.It accumulates the distribution differences of variables with different attributes in subsets corresponding to categorical variables as similarity variables and fits for mixture dataset.The experiments which use the derived similarity metrics in clustering algorithm and apply UCI datasets show that there is significant improvement in accuracy,validity and stability.
Keywords:Categorical variables  Similarity  f-divergence  Hellinger distance
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号