首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 781 毫秒
1.
当前聚类集成的研究主要是围绕着集成策略的优化展开,而针对基聚类质量的度量及优化却较少研究。基于信息熵理论提出了一种基聚类的质量度量指标,并结合三支决策思想构造了面向基聚类的三支筛选方法。首先预设基聚类筛选三支决策的阈值α、β,然后计算各基聚类中类簇质量的平均值,并把其作为各基聚类的质量度量指标,最后实施三支决策。决策策略为:当某个基聚类的质量度量指标小于阈值β时,删除该基聚类;当某个基聚类的质量度量指标大于等于阈值α时,保留该基聚类;当某个基聚类的质量度量指标大于等于β小于α时,重新计算该基聚类质量,并且再次实施上述三支决策直至没有基聚类被删除或达到指定迭代次数。对比实验结果表明,基聚类三支筛选方法能够有效提升聚类集成效果。  相似文献   

2.
聚类集成使用合适的策略融合多个具有差异性的基聚类成员,能够有效提高聚类结果的稳定性、鲁棒性和准确率。当前聚类集成的研究较少利用已知的先验信息,面对复杂数据时难以刻画对象与类簇之间明确的归属关系。因此,提出一种基于Seeds集和成对约束的半监督三支聚类集成方法。首先,基于已有的标签信息提出一种新的三支标签传播算法构造基聚类成员;其次,提出一种半监督三支聚类集成框架集成基聚类成员,构造出一致性相似矩阵,并利用成对约束信息对该矩阵进行优化调整;最后,将三支谱聚类作为一致性函数对相似矩阵进行聚类,得到最终集成结果。在多个UCI真实数据集上的实验结果表明,与基于类簇的相似分区算法(CSPA)、超图分区算法(HGPA)、元类簇算法(MCLA)、标签传播算法(LPA)、Cop-Kmeans等半监督聚类集成算法相比,所提方法的归一化互信息(NMI)、调整兰德系数(ARI)和F测度在绝大多数据集上取得了最优值,获得了相对更好的聚类集成结果。  相似文献   

3.
传统的聚类方法大都是二支决策,即决策一个元素属于一个类或者不属于一个类。然而在处理不确定性信息时,强制将其中的元素划分到一个类中,往往容易带来较高的决策风险。三支决策聚类将确定的元素放入核心域中,将不确定的元素放入边界域中延迟决策,可以有效地降低决策风险。利用数学形态学中膨胀与腐蚀的思想,提出了一种使用样本的[ε]邻域将二支聚类转化为三支聚类的方法。该方法在二支聚类的结果上,利用每个类中元素的[ε]邻域收缩得到核心域,扩张得到边界域。在UCI数据集上的实验结果显示该方法可以降低聚类结果的DBI,提高聚类结果的平均轮廓系数和准确率。  相似文献   

4.
目前,大多数聚类方法是二支聚类,即对象要么属于一个类,要么不属于一个类,聚类的结果必须具有清晰的边界。然而,将某些不确定的对象强制分配到某个类中将降低聚类结果的结构和精度。三支聚类是一种重叠聚类,它采用核心域和边界域来表示每个类别,较好地处理了具有不确定性对象的聚类问题。提出了一种使用样本邻域将二支聚类转化为三支聚类的方法。该方法利用二支聚类的结果和每个类中元素的邻域是否完全包含在该类中来对集合进行收缩,同时利用不在该类中的元素的邻域是否与该类有交集来进行扩张。收缩的区域称为核心域,扩张域和核心域的差集称为边界域。在UCI数据集上的实验结果显示,该方法在提高聚类结果的结构和F1值方面有较好的效果。  相似文献   

5.
聚类是数据挖掘的重要技术之一,在许多实际应用领域,由于数据获取限制,数据误读,随机噪音等原因会造成大量的缺失数据,形成数据集的不完备性,而传统的聚类方法无法直接对这类数据集进行聚类分析。针对数值型数据,提出了一个基于三支决策的不完备数据聚类方法。首先找到不完备数据对象的q个近邻,使用q个近邻的平均值填充缺失的数据;然后在"完备的"数据集上使用基于密度峰值的聚类方法得到簇划分,对每个簇中含有不确定性的数据对象,使用三支决策的思想将其划分到边界域中。三支决策聚类结果采用区间集形式表示,通常一个簇被划分成正域、负域和边界域部分,可以更好地描述软聚类结果。在UCI数据集和人工数据集上的实验结果展示了算法的有效性。  相似文献   

6.
聚类集成算法通常对聚类成员差异性要求较高,导致算法在生成聚类成员阶段计算复杂度提高。针对该问题提出了一种基于遗传算法的聚类集成方法CEGA,不考虑聚类成员的差异性,而是利用目标函数将聚类问题转化为聚类成员的优化问题,充分利用遗传算法内在的并行性和全局寻优能力,对聚类成员进行优化组合,并以得到的最优染色体作为聚类集成最终结果。分析了CEGA的复杂度及适用范围,并利用UCI数据库中部分数据集进行实验,实验结果表明这种聚类集成方法的有效性。  相似文献   

7.
聚类在数据挖掘技术中起着至关重要的作用。传统的聚类算法都是硬聚类算法,即对象要么属于一个类,要么不属于一个类,在处理不确定数据时,强制划分会带来决策错误。三支k-means聚类算法可以对边界不确定数据进行更加合理的分类,但仍然存在对初始聚类中心敏感的问题。为解决这一问题,将人工蜂群算法与三支k-means聚类算法相结合,提出了一种基于人工蜂群的三支k-means聚类算法。通过定义类内聚集度函数和类间离散度函数来构造蜜源的适应度函数,引导蜂群向高质量的蜜源进行全局搜索。利用蜂群之间不同角色的相互协作与互换,对数据集进行多次迭代聚类,找到最优的蜜源位置,作为初始聚类中心,并在此基础上交替迭代聚类。实验证明,该方法对聚类结果的性能指标有所提高。在UCI数据集上的实验验证了该算法的有效性。  相似文献   

8.
基于自组织特征映射的聚类集成算法   总被引:1,自引:0,他引:1  
为改善单一聚类算法的聚类性能,提出一种基于自组织特征映射(SOM)的聚类集成算法.该算法利用多个具有差异性的聚类成员,将原始数据集转换成一个新的特征空间矩阵;然后计算各个聚类成员的聚类综合质量,并将其作为新特征空间矩阵的属性权重,最后利用SOM神经网络进行集成,产生最终的共识聚类结果.实验结果表明,与集成前的基聚类算法和其它聚类集成算法相比,该算法能够有效地提高聚类质量.  相似文献   

9.
聚类集成中的差异性度量研究   总被引:14,自引:0,他引:14  
集体的差异性被认为是影响集成学习的一个关键因素.在分类器集成中有许多的差异性度量被提出,但是在聚类集成中如何测量聚类集体的差异性,目前研究得很少.作者研究了7种聚类集体差异性度量方法,并通过实验研究了这7种度量在不同的平均成员聚类准确度、不同的集体大小和不同的数据分布情况下与各种聚类集成算法性能之间的关系.实验表明:这些差异性度量与聚类集成性能间并没有单调关系,但是在平均成员准确度较高、聚类集体大小适中和数据中有均匀簇分布的情况下,它们与集成性能间的相关度还是比较高的.最后给出了一些差异性度量用于指导聚类集体生成的可行性建议.  相似文献   

10.
于洪  毛传凯 《计算机应用》2016,36(8):2061-2065
应用广泛的k-means算法结果是一种二支决策的结果,即对象要么属于某个类要么不属于这个类,这种决策方式难以适用于一些具有不确定现象的环境,因此提出三支决策聚类方法来反映对象与类之间的关系,即:对象确定属于某类、可能属于某类或确定不属于某类。显然,二支决策是三支决策的一种特例。此外,从类内紧凑性和考虑近邻类间分离性角度出发,定义了分离性指数、聚类结果评估有效性指数,并提出了一种自动三支决策聚类算法。该方法为处理具有不确定信息的基于k-means算法框架的聚类数目自动确定的难题提供了一种新的解决思路。在人工数据集和UCI真实数据集上的初步对比实验结果表明所提出的方法是有效的。  相似文献   

11.
一种基于邮件头信息的三支决策邮件过滤方法   总被引:1,自引:0,他引:1  
袁国鑫  于洪 《计算机科学》2017,44(9):74-77, 114
提出一种基于邮件头信息的三支决策垃圾邮件过滤方法。该方法使用一种新的属性重要度度量方法,并用该度量方法将邮件头信息属性依据重要度大小进行排序,然后按属性重要度的大小顺序对邮件计算贝叶斯概率并进行三支决策。当信息较少以致不足以决策时,按属性重要度大小顺序增加新的属性信息以帮助进一步的决策,直到得到最后的邮件分类。对比实验结果表明,该方法是合理且有效的。  相似文献   

12.
针对典型的支持向量机增量学习算法对有用信息的丢失和现有支持向量机增量学习算法单纯追求分类器精准性的客观性,将三支决策损失函数的主观性引入支持向量机增量学习算法中,提出了一种基于三支决策的支持向量机增量学习方法.首先采用特征距离与中心距离的比值来计算三支决策中的条件概率;然后把三支决策中的边界域作为边界向量加入到原支持向量和新增样本中一起训练;最后,通过仿真实验证明,该方法不仅充分利用有用信息提高了分类准确性,而且在一定程度上修正了现有支持向量机增量学习算法的客观性,并解决了三支决策中条件概率的计算问题.  相似文献   

13.
现有的聚类融合算法从聚类成员的角度出发,若使用全部聚类成员则融合结果受劣质成员影响,对聚类成员进行选择再进行融合则选择的策略存在主观性。为在一定程度上避免这两种局限性,可以从元素的角度出发,提出一种新的聚类融合方法。通过多粒度决策不一致粗糙集来选择一部分类别确定的元素,再利用这部分元素进行聚类融合生成新的划分;多粒度决策不一致粗糙集模型能够刻画多粒度决策过程中属性一致而决策不一致的现象,提出了一种基于多粒度决策不一致的粗糙集模型,并给出了一种聚类融合方法。具体做法是:首先在数据集上多次使用K-means聚类算法,生成论域上的多个粒结构;其次对所有粒结构两两之间求粒间包含度,建立包含度矩阵,对矩阵使用Otsu算法计算阈值,得出多组满足阈值条件的信息粒,求解多粒度决策不一致下近似和上近似;最后分别处理下近似与边界域中元素的类别,从而获得了一个经过融合的聚类划分。实验结果表明,该方法能够有效改善聚类的结果,具有较高的时间效率,且算法具有较好的鲁棒性。  相似文献   

14.
鉴于混淆矩阵在机器学习算法性能评价领域的通用性,文中以混淆矩阵为基础构造概率粗糙集三支决策度量系统,给出部分度量指标之间的性质及其证明,提出基于混淆矩阵度量指标体系的多目标优化三支决策阈值求解模型.模型中多目标优化函数被视为不同三支决策度量指标的加权之和,而最优阈值的求解也获得一种新型的语义解释.最后通过实例演示模型如何确定接受与拒绝域阈值,同时对比Pawlak粗糙集方法,表明文中模型获得的三支决策能够更好地平衡决策的准确率与承诺率.  相似文献   

15.
曾婷    唐孝    谭阳    丁本香   《智能系统学报》2020,15(6):1068-1078
在三支决策模糊粗糙集模型中,一些学者基于相似度三支决策模糊粗糙集模型建立了目标函数来得到最优阈值对 $\left( {\alpha ,\;\beta } \right)$ 的计算方法,但在该过程的研究中,学者并没有在相似度三支决策模糊粗糙集模型中讨论关于决策代价的描述问题。基于模糊信息系统用新的函数来描述决策代价成为计算阈值对 $\left( {\alpha ,\;\beta } \right)$ 的一种方法,首先,在模糊信息系统中,通过建立一个描述决策代价的函数,将模糊信息系统中的模糊数与三支决策的决策代价联系在一起;然后对隶属频率进行拟合,得到了三支决策中决策代价的数值描述;最后,通过两个实例说明了该方法的可行性和适用性。  相似文献   

16.
深入分析区间概念格的由上下界外延和内涵构成的区间概念特征和层次结构特性,融合基于决策粗糙集的三支决策理论,提出区间三支决策空间概念,通过降低决策损失实现决策的动态调控从而达到决策方案最优。将区间概念外延划分为三个域:正域、负域和边界域,并给出了基于区间概念的三支决策规则、决策度量函数与决策损失函数,分析了区间参数与函数之间的变化关系;定义了区间三支决策概念和由决策动作和决策损失共同构成的决策,并运用区间概念格的建格方法构建了三支决策空间;基于区间三支决策空间建立了动态策略调控模型,实现了对实际问题的动态决策并能有效降低决策失误带来的损失;通过医疗诊断实例证明了模型的正确性与可行性。  相似文献   

17.
Email spam filtering is typically treated as a binary classification problem that can be solved by machine learning algorithms. We argue that a three-way decision approach provides a more meaningful way to users for precautionary handling their incoming emails. Three email folders instead of two are produced in a three-way spam filtering system, a suspected folder is added to allow users make further examinations of suspicious emails, thereby reducing the chances of misclassification. Different from existing ternary email spam filtering systems, we focus on two issues that are less studied, that is, the computation of required thresholds to define the three email categories, and the interpretation of the cost-sensitive characteristics of spam filtering. Instead of supplying the thresholds based on intuitive understandings of the levels of tolerance for errors, we systematically calculate the thresholds based on decision-theoretic rough set model. A loss function is interpreted as the costs of making classification decisions. A decision is made for which the overall cost is minimum. Experimental results show that the new approach reduces the error rate of misclassifying a legitimate email to spam and demonstrates a better performance for the cost-sensitivity aspect.  相似文献   

18.
Three-way decisions with probabilistic rough sets   总被引:3,自引:0,他引:3  
The rough set theory approximates a concept by three regions, namely, the positive, boundary and negative regions. Rules constructed from the three regions are associated with different actions and decisions, which immediately leads to the notion of three-way decision rules. A positive rule makes a decision of acceptance, a negative rule makes a decision of rejection, and a boundary rule makes a decision of abstaining. This paper provides an analysis of three-way decision rules in the classical rough set model and the decision-theoretic rough set model. The results enrich the rough set theory by ideas from Bayesian decision theory and hypothesis testing in statistics. The connections established between the levels of tolerance for errors and costs of incorrect decisions make the rough set theory practical in applications.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号