首页 | 本学科首页   官方微博 | 高级检索  
     

基于属性相关分析的离群数据并行挖掘算法
引用本文:王磊,张继福. 基于属性相关分析的离群数据并行挖掘算法[J]. 太原重型机械学院学报, 2011, 0(5): 364-369
作者姓名:王磊  张继福
作者单位:太原科技大学计算机科学与技术学院,太原030024
基金项目:山西省自然科学基金(2010011021-2); 山西省回国留学人员科研项目(2009-77)
摘    要:针对高维海量数据集中的局部离群数据,利用并行计算和属性相关性分析思想,给出了一种离群数据并行挖掘算法。该算法首先由主节点分配属性相关分析任务,各个子节点并行查找数据集中的冗余属性,将其冗余属性传回主节点,并由主节点删除;其次,主节点分配搜索任务,各子节点采用微粒群算法,并行搜索局部离群子空间;再次,由主节点对局部离群子空间合并计算后,确定全局离群数据;最后,在MPICH2-1.0.3的并行计算环境下,采用恒星光谱数据作为数据集,实验结果验证了算法的正确性和有效性。

关 键 词:数据挖掘  并行计算  局部离群数据  属性相关分析  冗余属性

A Local Outlier Mining Parallel Algorithm Based on Attribute Relevance Analysis
WANG Lei,ZHANG Ji-fu. A Local Outlier Mining Parallel Algorithm Based on Attribute Relevance Analysis[J]. Journal of Taiyuan Heavy Machinery Institute, 2011, 0(5): 364-369
Authors:WANG Lei  ZHANG Ji-fu
Affiliation:(School of Computer Science and Technology,Taiyuan University of Science andTechnology,Taiyuan 030024,China)
Abstract:For high-dimensional and large data set,an outlier parallel mining algorithm is presented by taking attribute relevance analysis.Firstly,main node distributes attribute relevance analysis task,then each sub-node finds out irrelevant attributes of data set in parallel,and these attributes are returned to the main node.The irrelevant attributes are removed by the main node.Secondly,the main node assigns search task,and each sub-node takes particle swarm optimization algorithm to search local outlier spaces in parallel.The main node works out the outlier spaces to establish the global outliers.In the end,the experimental results validate the accuracy and the effectiveness of the algorithm by using star spectrum data set in parallel computing environment.
Keywords:data mining  parallel computation  local outlier  attribute relevance analysis  irrelevant attributes
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号