首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
针对现有层次聚类算法难以处理不完备数据集,同时考虑样本与类簇之间的不确定关系,提出一种面向不完备数据的集对粒层次聚类算法-SPGCURE.首先,采用集对信息粒的知识对缺失值进行处理,不同于以往算法中将缺失属性删除或者填充,用集对联系度中的差异度来表示缺失属性值,提出一种改进的集对信息距离度量方法,用于考量不完备数据样本间的紧密程度;其次,基于改进后的集对距离度量,给出各个类簇的类内平均距离的定义,形成以正同域Cs(样本一定属于类簇)、边界域Cu(样本可能属于类簇)和负反域Co(样本不属于类簇)表示的集对粒层次聚类;SPGCURE算法在完备和不完备数据都适用,最后,选用5个经典的UCI数据集,与常用的经典及改进聚类算法进行实验评价,结果表明,SPGCURE算法在准确度、F-measure、调整兰德系数和标准互信息等指标上均具有不错的聚类性能.  相似文献   

2.
基于粗糙集的混合属性数据聚类算法   总被引:2,自引:0,他引:2  
范黎林  王娟 《计算机应用》2010,30(12):3377-3379
传统聚类方法将对象严格地划分到某一类,但是很多时候边界对象不能被严格地划分。基于粗糙集的k-means聚类算法和基于粗糙集的leader聚类算法,利用粗糙集理论将数据对象划分到一个簇的上近似集或下近似集当中,提供了一种新的处理不确定性的视角,很好地解决了这种边界不确定问题。但其缺点是不能处理混合属性数据,聚类结果对初值有明显的依赖性。针对这些算法存在的不足,给出了一种适用于混合属性数据的距离定义,对初始值的选取提出了改进办法,提出了一种基于粗糙集的混合属性数据聚类算法。仿真实验证明,在不确定聚类簇数的情况下,该算法的聚类准确率比传统k-means算法明显提高。  相似文献   

3.
《软件工程师》2019,(5):32-34
针对传统k-means算法中初始聚类中心随机确定的问题,提出k-means改进算法。首先,定义变量权值,权值的大小等于样本密度乘以簇间距离除以簇内样本平均距离,通过最大权值来确定聚类中心,克服了随机确定聚类中心的不稳定性。然后在Hadoop平台上用Map-Reduce框架下实现算法的并行化。最后以南通公交IC刷卡记录为例,通过改进的k-means聚类算法进行IC卡刷卡记录的分析。实验表明,在Hadoop平台下改进k-means算法运行稳定、可靠,具有很好的聚类效果。  相似文献   

4.
K-means聚类算法的性能依赖于距离度量的选择,k-means算法将欧几里德距离作为最常用的距离度量方法。欧氏距离认为所有属性在聚类中作用是相同的,但是这种距离度量方法并不能准确反映样本间的相异性。针对这种不足,提出了融合变异系数的k-means聚类分析方法(CV-k-means),利用变异系数权重向量来减少不相关属性的影响。实验结果表明,该方法的聚类结果优于k-means算法。  相似文献   

5.
聚类是数据挖掘的重要技术之一,在许多实际应用领域,由于数据获取限制,数据误读,随机噪音等原因会造成大量的缺失数据,形成数据集的不完备性,而传统的聚类方法无法直接对这类数据集进行聚类分析。针对数值型数据,提出了一个基于三支决策的不完备数据聚类方法。首先找到不完备数据对象的q个近邻,使用q个近邻的平均值填充缺失的数据;然后在"完备的"数据集上使用基于密度峰值的聚类方法得到簇划分,对每个簇中含有不确定性的数据对象,使用三支决策的思想将其划分到边界域中。三支决策聚类结果采用区间集形式表示,通常一个簇被划分成正域、负域和边界域部分,可以更好地描述软聚类结果。在UCI数据集和人工数据集上的实验结果展示了算法的有效性。  相似文献   

6.
传统聚类方法将对象严格地划分到某一类,但很多时候边界对象不能被严格地划分.粗糙集用上近似集和下近似集表示一个类,对这种边界不确定的处理非常有效,典型算法有基于粗糙集的k-means聚类算法和基于粗糙集的leader聚类算法.本文针对RFA(R0ughFuzzyApproach)算法存在的不足,提出了一种新的基于粗糙集的leader聚类算法(NRL,Novel Rough-based Leader).其基本思想是首先数据项由于与其最近类中心的距离不同,分别被划分到leader集或者supporting leader集,然后对leader集和supporting leader集进行标号,得到聚类结果.实验结果表明NRL算法非常有效.  相似文献   

7.
马福民  孙静勇  张腾飞 《控制与决策》2022,37(11):2968-2976
在原有数据聚类结果的基础上,如何对新增数据进行归属度量分析是提高增量式聚类质量的关键,现有增量式聚类算法更多地是考虑新增数据的位置分布,忽略其邻域数据点的归属信息.在粗糙K-means聚类算法的基础上,针对边界区域新增数据点的不确定性信息处理,提出一种基于邻域归属信息的粗糙K-means增量式聚类算法.该算法综合考虑边界区域新增数据样本的位置分布及其邻域数据点的类簇归属信息,使得新增数据点与各类簇的归属度量更为合理;此外,在增量式聚类过程中,根据新增数据点所导致的类簇结构的变化,对类簇进行相应的合并或分裂操作,使类簇划分可以自适应调整.在人工数据集和UCI标准数据集上的对比实验结果验证了算法的有效性.  相似文献   

8.
现有的基于密度优化初始聚类中心的k-means算法存在聚类中心的搜索范围大、消耗时间久以及聚类结果对孤立点敏感等问题,针对这些问题,提出了一种基于平均密度优化初始聚类中心的k-means算法adk-means。该算法将数据集中的孤立点划分出来,计算出剩余数据集样本的平均密度,孤立点不参与聚类过程中各类所含样本均值的计算;在大于平均密度的密度参数集合中选择聚类中心,根据最小距离原则将孤立点分配给离它最近的聚类中心,直至将数据集完整分类。实验结果表明,这种基于平均密度优化初始聚类中心的k-means算法比现有的基于密度的k-means算法有更快的收敛速度,更强的稳定性及更高的聚类精度,消除了聚类结果对孤立点的敏感性。  相似文献   

9.
马福民  逯瑞强  张腾飞 《控制与决策》2017,32(11):1949-1956
如何对交叉边界区域的数据对象进行度量与处理一直是粗糙k-means(RKM)及其衍生算法的主要出发点.uppiRKM算法通过引入Laplace无差别原则,较好地解决了传统RKM算法对权重系数的选择比较敏感等相关问题,但没有考虑边界区域多个类簇的交叉程度以及边界区域数据对象的空间位置分布对聚类结果的影响.鉴于此,设计一种对边界区域的数据对象进行局部模糊度量的方法,并提出基于边界区域局部模糊增强的uppiRKM聚类改进算法,通过多组实例分析验证了所提出算法的有效性.  相似文献   

10.
基于频繁词集和k-Means的Web文本聚类混合算法   总被引:2,自引:1,他引:1       下载免费PDF全文
当前,Web文本聚类主要存在三个挑战:数据规模海量性、高雏空间处理复杂性和聚类结果的可理解性。针对上述挑战,本文提出了一个基于top-k频繁词集和k-means的混合聚类算法topHDC。该算法在生成初始聚簇时避免了高维空间向量处理,k个频繁词集对聚类结果提供了可理解的解释。topHDC避免了已有算法中聚类结果受文档长度干扰的问题。在两个公共数据集上的实验证明,topHDC算法在聚类质量和运行效率上明显优于另外两个具有代表性的聚类算法。  相似文献   

11.
张海东  舒兰 《微机发展》2006,16(12):4-6
为了用集对分析方法进一步刻画不完备信息系统,文中把新集对分析理论与粗糙集理论结合在一起,提出了一种新的集对粗糙集模型,从而拓宽了集对分析方法的应用;定义了一种不完备信息系统的上、下近似算子,得到了一些相关的性质。最后通过一个简单的例子说明了上述方法的可行性。  相似文献   

12.
借鉴模糊推理的基本方法,以集对逻辑为基础,给出了集对蕴含式的定义,进一步针对其联系数形式的真值进行研究,讨论了单论域上集对推理的基本模式与方法。然后,提出了集对关系的概念,将单论域推理方法延伸至具有集对关系的联系域上,证明了一些基本定理。该成果对于集对分析理论的发展与完善有着一定的参考价值与指导意义。  相似文献   

13.
为了能有效处理含有含噪音数据、模糊性的不完备信息系统,利用集对分析与粗糙集的思想与方法,在比较几种集对相似关系的优势与劣势的基础上,提出了一种基于阀值[α]联系度系数的集对顺势相似关系,并将其代替变精度粗糙集的不可区分关系,构建了一种基于集对顺势相似关系的变精度粗糙集模型,探讨其性质。通过实例验证了所构建模型的合理性与有效性。  相似文献   

14.
集对分析对不确定性的描述和处理   总被引:51,自引:0,他引:51  
赵克勤 《信息与控制》1995,24(3):162-166
本文概略地介绍了作者提出的集对分析概念及其对不确定性的描述和处理,并举例说明其实际应用。  相似文献   

15.
骆嘉伟  刘芳  杨华 《计算机应用》2009,29(1):269-272
信息离散性度量方法在生物信息处理领域中获得成功的应用,其基本思想是利用子序列分布差异来表示序列之间的差异,但是子序列长度的变化对结果的影响较大。文中提出了一种新的基于信息离散度的DNA序列相似性分析方法,利用不同距离的碱基对的联合概率分布差异来表示DNA序列之间的差异,并分析了信息集变化对结果的影响。实验结果表明,该方法是分析DNA序列相似性的简单且有效的工具。当信息集变化时,相似度较高的序列间的距离值变化很小。  相似文献   

16.
一种新的信息熵属性约简算法   总被引:1,自引:0,他引:1       下载免费PDF全文
给出一个区分对象对的属性约简定义,同时证明该属性约简的定义与基于信息熵的属性约简的定义是等价的。为求出区分对象对集,首先给出了一个快速求简化决策表的算法,其时间复杂度为O(|C||U|)。然后在简化决策表的基础上,设计了基于区分对象对集的信息熵属性约简算法,其时间复杂度和空间复杂度分别为O(|C||U|)+O(|C||U/C|2)和O(|U/C|2)+O(|U|),最后用一个实例说明了新算法的高效性。  相似文献   

17.
不完备信息系统中的集对粗糙集模型分析   总被引:1,自引:0,他引:1       下载免费PDF全文
考虑一种不完备信息系统,其中同时具有缺席和遗漏型未知属性值,在这种不完备信息系统中,采用集对分析的方法构建了一种新的基于联系度的加权相似度量。在此基础上,分析了加权相似度量在两种特殊情形的不完备信息系统中的表现形式,并通过实例说明了它的有效性。  相似文献   

18.
基于集对分析的变精度粗糙集模型   总被引:7,自引:2,他引:5  
粗糙集理论是一种新的处理模糊和不确定性知识的数学工具,在人工智能及数据挖掘等众多领域已经得到了广泛的应用。对于不完备信息系统目前也有多种扩充方法,如基于容差关系的扩充、基于相似关系的扩充等等。该文是在集对粗糙集模型的基础上,引入相对分类错误率的概念,提出了一种基于集对分析的变精度粗糙集模型。然后用集对分析的方法得到了变精度的上、下近似的性质,将经典粗糙集理论和集对粗糙集理论进行了推广。最后,通过一个不完备信息系统的具体例子,说明了这种基于集对分析的变精度粗糙集模型对不完备信息系统中处理模糊和不确定性知识的可行性和有效性。  相似文献   

19.
经典的粗糙集理论是基于完备信息系统的,然而实际中由于种种原因会碰到不完备信息系统,论文给出了利用集对联系度定义不完备信息系统中集合的上、下近似集,在一定程度上将粗糙集用于不完备信息系统方面进行了推广。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号