首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 421 毫秒
1.
针对字符型数据和混合型数据的聚类方法进行了研究。首先在经典粗糙集理论的基础上,通过松弛对 象之间的不可分辨和相容性条件,得到了基于和谐关系的扩展粗糙集模型;然后定义了新的个体间不可区分度、 类间不可区分度、聚类结果的综合近似精度等概念,提出了新的混合数据类型层次聚类算法。该算法不仅能处 理数值型数据,而且能处理大多数聚类算法不能处理的字符型数据和混合型数据。实验验证了算法的可行性。  相似文献   

2.
Rough集高效算法的研究   总被引:166,自引:11,他引:166  
深入分析了现有Rough集算法低效性的根源,围绕不可区分关系和正区域两个核心概念,研究了不可区分关系的性质,给出并证明了正区域的一种等价计算方法,从而得出高效的Rough集基本算法;随后,分析了正区域的渐增式计算,并给出了一种完备的同性约简算法.理论分析和实验结果表明,该约简算法在效率上较现有的算法有显著提高.  相似文献   

3.
一种基于Rough集的缺省规则挖掘算法   总被引:22,自引:1,他引:21  
Rough集方法是一种处理不确定或模糊知识的重要工具,对基于Rough集理论的缺省规则挖掘算法进行研究,在引入规则支持度概念后,提出了一种基于Rough集的缺省规则挖掘算法MDRBR。实验结果表明,该算法能较好地过滤噪音,提高规则的挖掘效率。  相似文献   

4.
陈炯  曹付元 《计算机应用》2006,26(Z2):158-160
Pawlak所提出的经典Rough集理论主要是针对完备信息系统的,利用不可分辨关系这种等价关系来对对象进行上近似和下近似分类.对于不完备信息系统的处理,需要对经典Rough集理论进行扩充,主要是对不可分辨关系进行扩充.对多值信息系统而言,目前有相似关系,但相似关系存在一定程度的局限性,为此提出一种基于类相似关系的扩充Rough集模型,并对该模型和相似关系模型之间的性能进行了比较,实例表明该模型具有较好的应用前景.  相似文献   

5.
K-Means聚类算法的结果质量依赖于初始聚类中心的选择。该文将局部搜索的思想引入K-Means算法,提出一种改进的KMLS算法。该算法对K-Means收敛后的结果使用局部搜索来使其跳出局部极值点,进而再次迭代求优。同时对局部搜索的结果使用K-Means算法使其尽快到达一个局部极值点。理论分析证明了算法的可行性和有效性,而在标准文本集上的文本聚类实验表明,相对于传统的K-Means算法,该算法改进了聚类结果的质量。  相似文献   

6.
密度峰值聚类算法(DPC)是一种简单高效的无监督聚类算法,能够快速找到聚类中心完成聚类。该算法通过截断距离定义局部密度未考虑样本点的空间分布特征;通过决策图选择聚类中心点,具有较强人为主观性;在分配样本点时采用单一分配策略,易产生连带错误。因此提出一种自适应聚类中心策略优化的密度峰值聚类算法(ADPC),采用共享近邻定义两点之间的相似性度量,重新定义了局部密度,使局部密度反应样本间的空间分布特征;通过相邻点之间斜率差分确定样本密度ρ与相对距离δ的乘积γ值的“拐点”,并对γ进行幂函数变换,以提高潜在聚类中心与非聚类中心的区分度,利用决策函数确定潜在的聚类中心,再通过潜在聚类中心之间距离均值自适应确定真实聚类中心;优化了非聚类中心点的分配策略。通过在UCI以及人工数据集上进行实验,该算法都可以自适应准确选定聚类中心,且在一定程度上提高了聚类性能。  相似文献   

7.
Rough集理论在不完备信息系统中的扩充   总被引:191,自引:1,他引:191  
Pawlak教授所提出的经典Rough集理论主要是针对完备信息系统的,利用了不可分辨关系这种等价关系来对对象进行了近拟和下近似分类,对于不完备信息系统的处理,需要对经典Rough集理论进行扩充,主要是对不可分辨关系进行扩充,目前已经有了基于容差关系,相似关系和量化容差关系等的扩充Rough集理论,但是,这些扩充也还存在一些局限性,将提出一种基于限制容差关系的扩充Rough集模型,并比较分析这些扩充Rough集模型之间的性能。  相似文献   

8.
一种基于遗传算法的Rough集多知识抽取方法   总被引:1,自引:0,他引:1  
Rough集理论为知识约简提供了一种有效的方法.提出了一种基于遗传算法的Rough集多知识抽取方法,针对决策系统中知识约简的不唯一性,构造了一种多约简算法,创建了多知识.在此基础上,利用遗传算法从一个更高的层次对多知识进行优化,并从中抽取最优知识集,试验结果分析表明,通过遗传算法优化后抽取的多知识较单体知识具有更高的精度,使知识的表示更具广义性。  相似文献   

9.
在研究APT攻击的防御方案过程中,针对提取APT样本网络特征的维数过高问题,提出一种基于[k]-means++聚类的APT样本有效网络特征筛选算法。该算法的思路是首先基于聚类的思想将提取的原特征集划分成APT流量特征集与背景流量特征集,然后计算去掉某一维特征向量后聚类性能的变化程度,最后根据该结果评价该特征向量的区分度。其中,有效特征向量即为区分度超过设定阈值的特征向量。目的就是从提取的原特征集中筛选出有效特征,达成对特征的降维,从而降低后续威胁情报形成和部署检测工作的时空开销。实验结果表明,该算法具有一定可行性,针对此问题相比于其他筛选算法具有一定的优势。  相似文献   

10.
Rough集理论作为一种新型的数学工具已广泛应用于各个领域。提出一种基于Rough集的牛顿迭代法求方程近似解算法,该算法将Rough理论中的下近似和上近似与牛顿迭代法有机地结合起来,寻找方程的近似解,其优点在于所求方程的根是一个精确的区间,该区间中任意实数都可作为所求方程的近似解,避免了一般方法求方程的近似解,把求得的近似数作为近似解,算法计算简单,易推广到其它的近似计算中,同时,有助于人们深刻理解Rough集理论本质。  相似文献   

11.
基于变精度粗糙集的Web用户聚类方法   总被引:1,自引:1,他引:0       下载免费PDF全文
针对Web使用挖掘中的用户聚类问题,提出一种基于变精度粗糙集理论的粗糙聚类方法,该方法放宽经典粗糙集中不可区分关系的传递性将其扩展为相容关系,使用变精度粗糙集的相对错误分类率β来形成新的相似β上近似,从而将一个用户划分到多个聚类,该方法不需要区分用户会话,降低了数据预处理的难度,通过理论推导和实例证明了其有效性。  相似文献   

12.
基于粗糙集的数据聚类方法研究   总被引:2,自引:0,他引:2  
RoughSets理论是一种新型的处理含糊和不确定性知识的数学工具,将RoughSets理论应用于知识发现中的聚类分析,给出了信息系统的约简、信息系统的可辨识属性矩阵和信息系统的辨识公式等定义,在此基础上提出了基于粗糙集的数据聚类算法RSDC,实验结果验证了该算法的可行性,并且对符号属性和数值属性数据都具有良好的聚类效果。  相似文献   

13.
The proposed work describes a rough set based incremental crime report labelling technique. The named entities are recognized from the available crime reports to identify the phrases existing between entity pairs. The phrases are vectorized considering intervening context words and a quick reduct generation algorithm is applied to minimize their dimensions. A graph based clustering algorithm has been applied to cluster the phrases and later they have been labelled based on some centrality measure techniques. Each current report, represented by a set of phrases, is labelled by the labels of clusters in which its phrases reside. Thus, a current report may be labelled as a multi-class report. Each new report is labelled incrementally using existing labelled clusters with the help of rough set theory. The phrases of the new report are partitioned into equivalence classes using indiscernibility relation and the lower approximations of the clusters of phrases are obtained considering these equivalence classes as target sets. If the lower approximation of a cluster contains all the phrases of the new report, then the report is labelled by the label of that cluster; otherwise, probability based membership values have been assigned to the report to represent the degree of its belongingness into different classes. The existing clusters and equivalence classes of phrases generate a new set of labelled clusters, which are further used for labelling upcoming reports. Thus, the proposed method labels crime reports in an incremental way. The work is validated by various indices and compared with many state-of-the-art clustering and classification algorithms. Experimental results show the effectiveness of the method in the crime report labelling.  相似文献   

14.
Rough集之间的相似度量   总被引:4,自引:0,他引:4  
Applications of rough set theory in incomplete information systems are a key of putting rough set into real applications. In this paper, after analyzing some basic concepts of classical rough set theory and extended rough set theory, the measure of similarity is developed between two rough sets in the classical rough set theory based on indiscernibility relation and between two rough sets in the extended rough set theory based on limited tolerance relation. Then,some properties of these two methods for measuring similarity are developed respectively. At last,these two measure methods of rough set theory are compared.  相似文献   

15.
现有的聚类融合算法从聚类成员的角度出发,若使用全部聚类成员则融合结果受劣质成员影响,对聚类成员进行选择再进行融合则选择的策略存在主观性。为在一定程度上避免这两种局限性,可以从元素的角度出发,提出一种新的聚类融合方法。通过多粒度决策不一致粗糙集来选择一部分类别确定的元素,再利用这部分元素进行聚类融合生成新的划分;多粒度决策不一致粗糙集模型能够刻画多粒度决策过程中属性一致而决策不一致的现象,提出了一种基于多粒度决策不一致的粗糙集模型,并给出了一种聚类融合方法。具体做法是:首先在数据集上多次使用K-means聚类算法,生成论域上的多个粒结构;其次对所有粒结构两两之间求粒间包含度,建立包含度矩阵,对矩阵使用Otsu算法计算阈值,得出多组满足阈值条件的信息粒,求解多粒度决策不一致下近似和上近似;最后分别处理下近似与边界域中元素的类别,从而获得了一个经过融合的聚类划分。实验结果表明,该方法能够有效改善聚类的结果,具有较高的时间效率,且算法具有较好的鲁棒性。  相似文献   

16.
Liping An  Lingyun Tong 《Knowledge》2010,23(6):555-562
Rough sets theory has proved to be a useful mathematical tool for dealing with the vagueness and granularity in information tables. Classical definitions of lower and upper approximations were originally introduced with reference to an indiscernibility relation. However, indiscernibility relation is still restrictive for many applications. Many real-world problems deal with assignment of some objects to some preference-ordered decision classes. And, the objects are described by a finite set of qualitative attributes and quantitative attributes. In this paper, we construct the indiscernibility relation for the subset of nominal attributes, the outranking relation for the subset of ordinal attributes, and the similarity relation for the subset of quantitative attributes. Then the global binary relation is generated by the intersection of indiscernibility relation, outranking relation and similarity relation. New definitions of lower and upper approximations of the upward and downward unions of decision classes are proposed based on the global relation. We also prove that the lower and upper approximation operations satisfy the properties of rough inclusion, complementarity, identity of boundaries, and monotonicity.  相似文献   

17.
改进的基于遗传算法的粗糙聚类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
传统的聚类算法都是使用硬计算来对数据对象进行划分,然而现实中不同类之间对象通常没有明确的界限。粗糙集理论提供了一种处理边界对象不确定的方法。因此将粗糙理论与k-均值方法相结合。同时,传统的k-均值聚类方法必须事先给定聚类数k,但实际情况下k很难确定;另外虽然传统k-均值算法局部搜索能力强,但容易陷入局部最优。遗传算法能得到全局最优解,但收敛过快。鉴于此,提出了一种改进的基于遗传算法的的粗糙聚类方法。该算法能动态地生成k-均值聚类数,采用最大最小原则生成初始聚类中心,同时结合粗糙集理论的上近似和下近似处理边界对象。最后,用UCI的Iris数据集分别对算法进行实际验证。实验结果表明,该算法具有较高的正确率,综合性能更加稳定。  相似文献   

18.
基于不可区分度的启发式快速完备约简算法   总被引:5,自引:1,他引:4  
在已有的粗糙集属性约简算法基础上,给出了一个新的度量属性重要性的不可区分度函数,分析了不可区分度的性质,提出了一种能有效处理噪声的基于不可区分度的快速完备约简算法,最坏时间复杂度为max(O(|A||U|),O(|A|2|U/A|)).理论分析和实验结果表明,该约简算法在效率上较现有算法有显著提高,能较好抵制数据噪声,适于对大数据集进行处理.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号