首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
不完整数据的分析与填充一直是大数据处理的热点研究课题,传统的分析方法无法对不完整数据直接聚类,大部分方法先填充缺失值,然后对数据聚类。这些方法一般利用整个数据集对缺失数据进行填充,使得填充值容易受到噪声的干扰,导致填充结果不精确,进而造成聚类精度很低。提出一种不完整数据聚类算法,对不完全信息系统的相似度公式进行重新定义,给出不完整数据对象间的相似度度量方式,进而直接对不完整数据聚类。根据聚类结果将同一类对象划分到相同的簇中,通过同一类对象的属性值对缺失值进行填充,避免噪声对填充值的干扰,提高填充结果的精确性。实验结果表明,提出的方法能够对不完整数据进行聚类,并有效提高缺失数据的填充精度。  相似文献   

2.
不完整大数据的分布式聚类填充算法   总被引:2,自引:0,他引:2  
传统大数据填充算法是根据整个数据集对缺失数据进行填充,使得填充值容易受到不同类别数据的干扰,导致填充结果不精确。针对该问题,给出不完整数据的相似度度量方法,使用近邻传播( AP )算法对不完整数据进行聚类。采用云计算技术优化AP聚类算法,实现一种基于MapReduce的分布式聚类算法,根据算法聚类结果将同一类数据对象划分到相同簇中,并利用同一类对象的属性值对缺失值进行填充。实验结果表明,该算法能实现不完整大数据的聚类,同时加快聚类速度,提高缺失数据的填充精度。  相似文献   

3.
当前的不完整数据处理算法填充缺失值时,精度低下。针对这个问题,提出一种基于CFS聚类和改进的自动编码模型的不完整数据填充算法。利用CFS聚类算法对不完整数据集进行聚类,对降噪自动编码模型进行改进,根据聚类结果,利用改进的自动编码模型对缺失数据进行填充。为了使得CFS聚类算法能够对不完整数据集进行聚类,提出一种部分距离策略,用于度量不完整数据对象之间的距离。实验结果表明提出的算法能够有效填充缺失数据。  相似文献   

4.
针对当前入侵检测中存在检测率低,误检率和漏报率高的问题,提出了一种基于K-means聚类的贝叶斯分类算法(IKMNB).用改进的K-means聚类算法对原始数据集中的完整数据进行聚类,然后计算缺失数据集中的每条记录与k个簇中心之间的近似度距离,把记录归属为距离最近的一个簇,使得该记录的缺失值被相应簇中的属性值填充,最后运用贝叶斯分类算法对处理后的完整数据集进行分类.通过仿真实验验证了该算法与朴素贝叶斯算法相比提高了检测率,降低了误检率和漏报率.  相似文献   

5.
针对传统大数据填充方法相似度度量方法单一,且通常只考虑原数据集内部联系,使得填充数据容易被原数据集限制、失去自身原有特点、填充结果不客观等问题.提出一种新的概念——共享知识,该方法首先基于共享知识构建不完整数据集与异源相似完整数据集的共享关系,并建立共享信息系统;其次通过新的相似度度量方法建立它们对象间的相似关系,从而用异源相似完整数据集对象对不完整的数据集对象进行相似填充.实验结果表明,新的相似度度量方法比单一的数值型相似度度量方法填充精度更高.与其他填补算法相比,该方法对缺失值的填充精度值能够稳定地保持在0.85以上,均方根误差稳定在0.15之下,充分保留了填充值的客观性,填充效果更好.  相似文献   

6.
针对传统K-均值聚类算法需要事先确定聚类数,以及对初始质心的选择具有敏感性,从而容易陷入局部极值点的缺陷,定义了簇间相似度度量对传统K-均值聚类进行改进.新算法可以在事先不确定K值的情况下,根据欧氏距离选取初始质心并按照K均值算法聚类,然后过滤噪声样本并确定簇半径,计算簇间相似度并合并相似簇确定数据集的类别数并得到较优的聚类结果.通过在UCI数据集的实验结果表明,新算法能准确确定类别数并有高于传统K均值算法聚类精度.  相似文献   

7.
为了提高用户相似度计算精度和推荐准确性,缓解数据稀疏性,提出一种基于商品属性值和用户特征的协同过滤推荐算法。该算法首先从用户对商品属性值的偏好出发,计算用户对商品属性值的评分分布和评分期望值,得到用户-属性值评分矩阵;同时利用数据相似性度量方法寻找用户特征邻居,填充用户-属性值评分稀疏矩阵,进而得出目标用户偏好的最近邻居集;计算用户对未评属性值的评分,将目标用户对商品所有属性值评分的均值进行排序,形成该用户的Top-N推荐列表。采用Movie Lens和Book Crossing数据集进行实验,结果表明该算法在缓解数据稀疏性问题上效果较好,推荐精度显著提高。  相似文献   

8.
张亚萍  胡学钢 《微机发展》2007,17(11):33-35
将K-means算法引入到朴素贝叶斯分类研究中,提出一种基于K-means的朴素贝叶斯分类算法。首先用K-means算法对原始数据集中的完整数据子集进行聚类,计算缺失数据子集中的每条记录与k个簇重心之间的相似度,把记录赋给距离最近的一个簇,并用该簇相应的属性均值来填充记录的缺失值,然后用朴素贝叶斯分类算法对处理后的数据集进行分类。实验结果表明,与朴素贝叶斯相比,基于K-means思想的朴素贝叶斯算法具有较高的分类准确率。  相似文献   

9.
基于K-means的朴素贝叶斯分类算法的研究   总被引:1,自引:0,他引:1  
将K-means算法引入到朴素贝叶斯分类研究中,提出一种基于K-means的朴素贝叶斯分类算法。首先用K-means算法对原始数据集中的完整数据子集进行聚类,计算缺失数据子集中的每条记录与k个簇重心之间的相似度,把记录赋给距离最近的一个簇,并用该簇相应的属性均值来填充记录的缺失值,然后用朴素贝叶斯分类算法对处理后的数据集进行分类。实验结果表明,与朴素贝叶斯相比,基于K-means思想的朴素贝叶斯算法具有较高的分类准确率。  相似文献   

10.
为了提升聚类性能,文中提出基于凸差规划(DCP)的不完整数据填充聚类算法.采用DCP对核模糊C均值目标进行凸差化改造,实现DCP聚类和数据缺失项填充的交替优化过程,从理论上证明交替优化的收敛性.在UCI数据集上的实验验证文中算法在缺失数据填充和聚类上的优势.  相似文献   

11.
针对现有层次聚类算法难以处理不完备数据集,同时考虑样本与类簇之间的不确定关系,提出一种面向不完备数据的集对粒层次聚类算法-SPGCURE.首先,采用集对信息粒的知识对缺失值进行处理,不同于以往算法中将缺失属性删除或者填充,用集对联系度中的差异度来表示缺失属性值,提出一种改进的集对信息距离度量方法,用于考量不完备数据样本间的紧密程度;其次,基于改进后的集对距离度量,给出各个类簇的类内平均距离的定义,形成以正同域Cs(样本一定属于类簇)、边界域Cu(样本可能属于类簇)和负反域Co(样本不属于类簇)表示的集对粒层次聚类;SPGCURE算法在完备和不完备数据都适用,最后,选用5个经典的UCI数据集,与常用的经典及改进聚类算法进行实验评价,结果表明,SPGCURE算法在准确度、F-measure、调整兰德系数和标准互信息等指标上均具有不错的聚类性能.  相似文献   

12.
可处理混合属性的任意形状聚类   总被引:1,自引:1,他引:0       下载免费PDF全文
聚类是数据挖掘中一个非常活跃的研究分支,任意形状的聚类则是一个有待研究的开放问题。提出一种包含分类属性取值频率信息的类间差异性度量和一种对象与类的相似度定义,在此基础上提出一种能处理任意形状的聚类算法,可处理混合属性数据集。在人造数据集和真实数据集上检验了提出的算法,并与相关算法进行了对比,实验结果表明,提出的算法是有效可行的。  相似文献   

13.
针对传统的kNN(k-NearestNeighbor)近邻填补算法对缺失数据的填补效果会因为k最近邻数据存在噪声受到较大干扰的问题,提出一种基于kNN-DBSCAN(k-NearestNeighbor Density-based Spatial Clustering of Applications with Noise)的缺失数据填补优化算法。将基于密度的DBSCAN聚类算法运用到kNN近邻填补算法中,先用kNN算法得到目标填补数据的原始k最近邻数据集,运用DBSCAN聚类算法对原始k最近邻数据集进行噪声检测并消除噪声数据,得到当前k最近邻数据集,最后并入kNN计算,填补目标缺失数据;同时,针对DBSCAN聚类算法参数设置敏感的问题,通过分析数据集的统计特性来确定参数,避免人为经验判断。最后利用真实数据对算法进行验证,结果显示该算法对目标缺失数据的填补准确度要优于传统的kNN算法。  相似文献   

14.
数据缺失会影响数据的质量,可能导致分析结果的不准确和降低模型的可靠性,缺失值填补能减低偏差方便后续分析.大多数的缺失值填补算法,都是假设多项缺失值之间是弱相关甚至无相关,很少考虑缺失值之间的相关性以及填补顺序.在销售领域中对缺失值进行独立填补,会减少缺失值信息的利用,从而对缺失值填补的准确度造成较大的影响.针对以上问题,本文以销售领域为研究目标,根据销售行为的多维度特征,利用不同模型输出值的空间分布特征特性,探索多项缺失值的填补更新机制,研究面向销售数据多项缺失值增量填补方法,根据特征相关性,对缺失特征排序并用已填补的数据作为信息要素融合对后面的缺失值进行增量填补.该算法同时考虑了模型的泛化性和缺失数据之间的信息相关问题,并结合多模型融合,对多项缺失值进行有效填补.最后基于真实连锁药店销售数据集通过大量实验对比验证了所提算法的有效性.  相似文献   

15.
一种基于加权相似性的粗糙集数据补齐方法   总被引:1,自引:1,他引:0  
赵洪波  江峰  曾惠芬  高宏 《计算机科学》2011,38(11):167-170,190
近年来,对不完备数据的处理引起了人们的广泛关注。目前,在粗糙集理论中已经提出了多种不完备数据补齐方法,这些方法通常需要计算决策表中具有缺失值的对象与其他没有缺失值的对象之间的相似性,并以最相似对象的取值来代替缺失值。然而,这些方法普遍存在一个问题,即在计算决策表中对象之间的相似性时假设决策属性对所有条件属性的依赖性都是相等的,而且所有条件属性都是同等重要的,并没有考虑不同条件属性之间的差异性。针对这一问题,引入一个加权相似性的概念,以决策属性对条件属性的依赖性和条件属性的重要性作为权值来计算相似性。基于加权相似性,提出一种新的粗糙集数据补齐算法WSDCA。最后,在UCI数据集上,将WSDCA算法与现有的数据补齐算法进行了比较分析。实验结果表明,所提出的数据补齐方法是有效的。  相似文献   

16.
基于决策树的数据遗失值填充方法的研究   总被引:3,自引:0,他引:3       下载免费PDF全文
数据遗失值填充问题是预处理过程中的一个难点。已有的算法大多寻求数据中属性值之间的关系、属性与属性值之间的关系、属性与属性间的关系来对遗失值进行填充。文章从数据间的关系入手,引入相似度的概念,并提出一种新的数据遗失值填充算法。这种算法简单,易于理解,可对一个数据具有多个遗失值的情况进行填充。  相似文献   

17.
姚晟  汪杰  徐风  陈菊 《计算机应用》2018,38(1):97-103
针对现有的属性约简算法不适合处理数值型属性和符号型属性共同存在的不完备数据,提出了一种拓展不完备邻域粗糙集模型。首先,通过考虑属性值的概率分布来定义缺失属性值之间的距离,可以度量具有混合属性的不完备数据;其次,定义了邻域混合熵来评价属性约简的质量,分析证明了相关的性质定理,并构造了一种基于邻域混合熵的不完备邻域粗糙集属性约简算法;最后从UCI数据集中选取了7组数据进行实验,并分别与基于依赖度的属性约简(ARD)、基于邻域条件熵的属性约简(ARCE)、基于邻域组合测度的属性约简(ARNCM)算法进行了比较。理论分析和实验结果表明,所提算法约简属性比ARD、ARCE、ARNCM分别减少了约1,7,0个,所提算法的分类精度比ARD、ARCE、ARNCM分别提高了约2.5,2.1,0.8个百分点。所提算法不仅能够获得较少的约简属性,同时具有较高的分类精度。  相似文献   

18.
时巍 《计算机仿真》2020,(4):432-435,440
传统数据填补手段填补规模受限,存在运行不稳定、内存占比较大以及填补精度较低等缺点,为此提出一种云计算下相关性缺失大数据分块填补。根据数据填补原理,可通过较小的区间代替缺失数据,计算大数据集信息熵与指标之间的相关性系数,将数据集填充于原始大数据中,计算新得到的数据集信息熵,利用新旧信息熵的相似性关系扩大区间范围。随后对相关性缺失大数据做分块处理,分成已知分块和未知分块,已知分块可以直接对其进行填补,未知分块需要利用基于稀疏性的K-means算法约束目标函数中变量权重,并划分其聚类结果获得未知分块数据集,最后利用宿主法实现填补。仿真结果证明,所提方法相比其它方法,精准度较高、填补效果良好且运行稳定。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号