首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 234 毫秒
1.
基础聚类成员预处理是聚类集成算法中的一个重要研究步骤。众多研究表明,基础聚类成员集合的差异性会影响聚类集成算法性能。当前聚类集成研究围绕着生成基础聚类和优化集成策略展开,而针对基础聚类成员的差异性度量及其优化的研究尚不完善。文中基于Jaccard相似性提出一种基础聚类成员差异性度量指标,并结合三支决策思想提出了基础聚类成员差异性三支过滤方法。该方法首先设定基础聚类成员的三支决策的初始阈值α(0)和β(0),然后计算各个基础聚类成员的差异性度量指标,进而实施三支决策。其决策策略为:当基础聚类成员的差异性度量指标小于指定阈值α(0)时,删除该基础聚类成员;当基础聚类成员的差异性度量指标大于指定阈值β(0)时,保留该基础聚类成员;当基础聚类成员的差异性度量指标大于α(0)且小于β(0)时,该基础聚类成员被归入三支决策边界域等待进一步判断。当结束一轮三支决策后,算法将重新计算三支决策阈值α(1)和β(1)并对上轮三支决策边界域重新进行三支决策,直至没有基础聚类成员被归入三支决策边界域或达到指定迭代次数。对比实验表明基础差异性度量的基础聚类三支过滤方法能够有效地提升聚类集成效果。  相似文献   

2.
聚类集成使用合适的策略融合多个具有差异性的基聚类成员,能够有效提高聚类结果的稳定性、鲁棒性和准确率。当前聚类集成的研究较少利用已知的先验信息,面对复杂数据时难以刻画对象与类簇之间明确的归属关系。因此,提出一种基于Seeds集和成对约束的半监督三支聚类集成方法。首先,基于已有的标签信息提出一种新的三支标签传播算法构造基聚类成员;其次,提出一种半监督三支聚类集成框架集成基聚类成员,构造出一致性相似矩阵,并利用成对约束信息对该矩阵进行优化调整;最后,将三支谱聚类作为一致性函数对相似矩阵进行聚类,得到最终集成结果。在多个UCI真实数据集上的实验结果表明,与基于类簇的相似分区算法(CSPA)、超图分区算法(HGPA)、元类簇算法(MCLA)、标签传播算法(LPA)、Cop-Kmeans等半监督聚类集成算法相比,所提方法的归一化互信息(NMI)、调整兰德系数(ARI)和F测度在绝大多数据集上取得了最优值,获得了相对更好的聚类集成结果。  相似文献   

3.
于洪  毛传凯 《计算机应用》2016,36(8):2061-2065
应用广泛的k-means算法结果是一种二支决策的结果,即对象要么属于某个类要么不属于这个类,这种决策方式难以适用于一些具有不确定现象的环境,因此提出三支决策聚类方法来反映对象与类之间的关系,即:对象确定属于某类、可能属于某类或确定不属于某类。显然,二支决策是三支决策的一种特例。此外,从类内紧凑性和考虑近邻类间分离性角度出发,定义了分离性指数、聚类结果评估有效性指数,并提出了一种自动三支决策聚类算法。该方法为处理具有不确定信息的基于k-means算法框架的聚类数目自动确定的难题提供了一种新的解决思路。在人工数据集和UCI真实数据集上的初步对比实验结果表明所提出的方法是有效的。  相似文献   

4.
针对传统的谱聚类算法通常利用高斯核函数作为相似性度量,且单纯以距离决定相似性不能充分表现原始数据中固有的模糊性、不确定性和复杂性,导致聚类性能降低的问题。提出了一种公理化模糊共享近邻自适应谱聚类算法,首先结合公理化模糊集理论提出了一种模糊相似性度量方法,利用识别特征来衡量更合适的数据成对相似性,然后采用共享近邻的方法发现密集区域样本点分布的结构和密度信息,并且根据每个点所处领域的稠密程度自动调节参数σ,从而生成更强大的亲和矩阵,进一步提高聚类准确率。实验表明,相较于距离谱聚类、自适应谱聚类、模糊聚类方法和地标点谱聚类,所提算法有着更好的聚类性能。  相似文献   

5.
杨辉  彭晗  朱建勇  聂飞平 《计算机仿真》2021,38(8):328-332,343
谱聚类可以任意形状的数据进行聚类,在聚类集成中能够有效的提高基聚类的质量.以往的聚类集成算法中,聚类集成得到的结果并不是最终聚类结果,还需要利用聚类算法来获得最终聚类结果,在整个过程中会使得解由离散-连续-离散的转变.提出了一种基于谱聚类的双边聚类集成算法.算法首先在生成阶段使用谱聚类算法来获得基聚类,通过标准互信息来选取基聚类.将选出来基聚类和样本作为图的顶点,并对构建的图利用双边聚类算法对基聚类和样本同时聚类直接得到最终聚类结果.在实验中,将所提方法与一些聚类集成算法进行了比较,取得了较好的结果.  相似文献   

6.
学习器间的差异性是影响集成学习效果的一个关键因素。目前针对分类集成的研究较多,针对聚类集成的研究则相对较少。基于聚类问题的本质特点,提出一种新的聚类集成学习方法,利用聚类有效性指标度量不同聚类结果性能上的差异,根据有效性指标的评价值为聚类结果分配权值,通过加权投票的决策方法进行聚类集成并确定最佳聚类数。理论研究和实验结果证明了新的聚类集成学习方法的可行性和高效性。  相似文献   

7.
聚类集成是将一个数据集的多个划分(基聚类)合成一个新的聚类,该聚类最大程度地代表了所有输入基聚类对数据集的聚类信息。显而易见,初始基聚类的质量对于最终的集成划分至关重要。传统的聚类集成中的基聚类器使用最多的是K-means,因为K-means不仅实现简单,计算复杂度不高,而且其聚类机制符合机器学习关于局部数据的类别条件概率为常数的假设。但由于K-means通常直接使用高斯距离作为距离测度,其只能发现球形簇的类;而对于具有结构复杂、尤其是基于连接性且非球形分布的类结构的数据集,不能生成高质量(即同质性高)的基聚类。为此提出一个基聚类的优化方法,即:判定K-means所生成类的同质性,对同质性较差的类进行再次划分,以提高基聚类的同质性,从而提高整个聚类集成的质量。在8个数据集上的实验数据表明所提出的方法是有效的。  相似文献   

8.
聚类是数据挖掘的重要技术之一,在许多实际应用领域,由于数据获取限制,数据误读,随机噪音等原因会造成大量的缺失数据,形成数据集的不完备性,而传统的聚类方法无法直接对这类数据集进行聚类分析。针对数值型数据,提出了一个基于三支决策的不完备数据聚类方法。首先找到不完备数据对象的q个近邻,使用q个近邻的平均值填充缺失的数据;然后在"完备的"数据集上使用基于密度峰值的聚类方法得到簇划分,对每个簇中含有不确定性的数据对象,使用三支决策的思想将其划分到边界域中。三支决策聚类结果采用区间集形式表示,通常一个簇被划分成正域、负域和边界域部分,可以更好地描述软聚类结果。在UCI数据集和人工数据集上的实验结果展示了算法的有效性。  相似文献   

9.
《软件工程师》2019,(2):1-4
三支决策是一种符合人类认知的"三分而治"模型,衡量"治"的效果需基于特定的"分"法。现有的对"治"的研究往往基于等价类进行三分。本文基于相容关系进行三支聚类,根据聚类假设对数据对象进行"治"略,提出一种测量治略效果的算法——3WC-BC。通过"治"前后的比较表明"治"略的意义和有效性。实验结果表明,三支决策中"治"略的研究具有较大意义,能够为选择合理的或最大效益的"治"略选择提供方法,与传统的离散表格索引的选择方法比较减少了因索引错误而造成的误差。  相似文献   

10.
聚类在数据挖掘技术中起着至关重要的作用。传统的聚类算法都是硬聚类算法,即对象要么属于一个类,要么不属于一个类,在处理不确定数据时,强制划分会带来决策错误。三支k-means聚类算法可以对边界不确定数据进行更加合理的分类,但仍然存在对初始聚类中心敏感的问题。为解决这一问题,将人工蜂群算法与三支k-means聚类算法相结合,提出了一种基于人工蜂群的三支k-means聚类算法。通过定义类内聚集度函数和类间离散度函数来构造蜜源的适应度函数,引导蜂群向高质量的蜜源进行全局搜索。利用蜂群之间不同角色的相互协作与互换,对数据集进行多次迭代聚类,找到最优的蜜源位置,作为初始聚类中心,并在此基础上交替迭代聚类。实验证明,该方法对聚类结果的性能指标有所提高。在UCI数据集上的实验验证了该算法的有效性。  相似文献   

11.
曾婷    唐孝    谭阳    丁本香   《智能系统学报》2020,15(6):1068-1078
在三支决策模糊粗糙集模型中,一些学者基于相似度三支决策模糊粗糙集模型建立了目标函数来得到最优阈值对 $\left( {\alpha ,\;\beta } \right)$ 的计算方法,但在该过程的研究中,学者并没有在相似度三支决策模糊粗糙集模型中讨论关于决策代价的描述问题。基于模糊信息系统用新的函数来描述决策代价成为计算阈值对 $\left( {\alpha ,\;\beta } \right)$ 的一种方法,首先,在模糊信息系统中,通过建立一个描述决策代价的函数,将模糊信息系统中的模糊数与三支决策的决策代价联系在一起;然后对隶属频率进行拟合,得到了三支决策中决策代价的数值描述;最后,通过两个实例说明了该方法的可行性和适用性。  相似文献   

12.
江洋  李成海 《计算机应用》2017,37(5):1353-1356
变精度粗糙集理论能有效处理带噪声的数据,但其移植性较弱。针对这种情况,引入阈值参数α,提出了一种改进的变精度粗糙集漏洞威胁评估模型。首先,根据漏洞特征属性建立评估决策表;然后,使用k均值算法对连续属性进行离散化处理;接下来,通过多次计算,调整参数βα的值,进行属性约简并提取概率决策规则,构造决策规则库;最后,将测试数据与规则库进行匹配,得到漏洞威胁评估结果。仿真实验表明,所提方法的评估正确率比改进前提高了19.66个百分点,并且移植性有所增强。  相似文献   

13.
由于缺少数据分布、参数和数据类别标记的先验信息,部分基聚类的正确性无法保证,进而影响聚类融合的性能;而且不同基聚类决策对于聚类融合的贡献程度不同,同等对待基聚类决策,将影响聚类融合结果的提升。为解决此问题,提出了基于随机取样的选择性K-means聚类融合算法(RS-KMCE)。该算法中的随机取样策略可以避免基聚类决策选取陷入局部极小,而且依据多样性和正确性定义的综合评价值,有利于算法快速收敛到较优的基聚类子集,提升融合性能。通过2个仿真数据库和4个UCI数据库的实验结果显示:RS-KMCE的聚类性能优于K-means算法、K-means融合算法(KMCE)以及基于Bagging的选择性K-means聚类融合(BA-KMCE)。  相似文献   

14.
廖俊东  刘立程  郝禄国  刘辉 《计算机应用》2016,36(11):2993-2997
在H.265/HEVC基于R-λ模型码率控制算法中,为了提高最大编码单元(LCU)的比特分配的效果以及参数(αβ)更新的精度,提出一种码率控制优化算法。该算法主要是利用当前最大编码单元原始比特进行比特分配,以及利用编码失真度对参数(αβ)更新。实验结果表明,在恒定比特率情况下,相对于HM13.0码率控制算法三分量峰值信噪比(PSNR)增益至少提高0.76 dB,编码传输比特每帧消耗比特至少降低0.46%,编码时间至少减少0.54%。  相似文献   

15.
针对广义多尺度决策系统的知识表示与知识获取问题,讨论广义多尺度决策系统中基于对偶概率粗糙集模型的最优尺度组合选择问题.定义广义多尺度决策系统中β下近似最优尺度组合、 β上近似最优尺度组合、 β信任分布最优尺度组合与β似然分布最优尺度组合概念,分析不同最优尺度组合之间的关系与特征,证明当β在特殊的阈值范围内时, β下近似最优尺度组合与最大分布最优尺度组合等价,而β上近似最优尺度组合与广义决策最优尺度组合等价.  相似文献   

16.
李明霞  刘保相  张春英 《计算机应用》2016,36(11):2945-2949
在由形式背景构建区间概念格之前,首先要确定区间参数[α,β],区间参数的选取影响着概念外延、格结构以及提取的关联规则数量和精度。为了获取区间概念格的压缩度达到最大时的[α,β],首先,提出了基于形式背景的二元关系对的相似度和二元关系上的覆盖近邻空间的定义,得到二元关系对的相似矩阵,并根据γ相似类求得的覆盖来计算二元关系对的近邻;其次,给出基于参数变化的概念集合更新算法,在非重建的基础上得到各区间参数下概念集合,并结合各区间参数下二元关系对的近邻空间,进一步构建基于压缩理论的区间概念格参数优化模型,依据压缩度的大小以及变化趋势寻找区间参数最优值;最后,通过实例验证了模型的有效性。  相似文献   

17.
Bagging-based spectral clustering ensemble selection   总被引:2,自引:0,他引:2  
Traditional clustering ensemble methods combine all obtained clustering results at hand. However, we can often achieve a better clustering solution if only parts of the clustering results available are combined. In this paper, we generalize the selective clustering ensemble algorithm proposed by Azimi and Fern and a novel clustering ensemble method, SELective Spectral Clustering Ensemble (SELSCE), is proposed. The component clusterings of the ensemble system are generated by spectral clustering (SC) capable of engendering diverse committees. The random scaling parameter, Nyström approximation are used to perturb SC for producing the components of the ensemble system. After the generation of component clusterings, the bagging technique, usually applied in supervised learning, is used to assess the component clustering. We randomly pick part of the available clusterings to get a consensus result and then compute normalized mutual information (NMI) or adjusted rand index (ARI) between the consensus result and the component clusterings. Finally, the components are ranked by aggregating multiple NMI or ARI values. The experimental results on UCI dataset and images demonstrate that the proposed algorithm can achieve a better result than the traditional clustering ensemble methods.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号