首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
针对现有的属性约简方法在约简的过程中与用户交互过程太少的问题,提出了属性距离的定义及其基于聚类的约简方法。首先给出了属性依赖度和相对依赖度的定义,然后根据用户给定参数和由属性相对依赖度计算出的属性距离对属性进行聚类,将区分能力相似的属性聚集到同一个类中,最后从每个类中选取出属性组成约简属性集。实验结果表明:该方法比以往的属性约简方法有更好的交互性能,能通过用户的参数,约简出接近用户需求的属性集。  相似文献   

2.
路静  张涛  任宏雷 《计算机工程与应用》2012,48(28):135-138,233
根据经典粗糙集方法,在对可约简决策表进行属性约简时可能出现核不存在无法找到起点属性从而无法约简的问题。针对该问题,提出了基于聚类率的属性约简方法。计算决策表的区分矩阵,以属性区分度为基础,在属性区分度相同的情况下,利用聚类率修正属性重要度,保证起点属性存在的必然性,从而完成起点属性的求取并获得决策表的属性约简。实验分析表明,方法可以保证可约简决策表中起点属性的计算,且利用该方法获得的约简结果保持了较高的决策准确率,是有效可行的。  相似文献   

3.
结合粗糙集和模糊聚类方法的属性约简算法   总被引:5,自引:2,他引:5  
本文针对粗糙集理论的属性约简算法进行了研究。结合模糊聚类方法,提出了一个新的属性约简算法,用户可以根据实际决策需要和领域知识更改阈值λ,从而得到用户满意的属性约简结果。最后利用该文的算法给出了一个实例的约筒结果。  相似文献   

4.
Affinity Propagation(AP)聚类算法将所有数据点作为潜在的聚类中心,在相似度矩阵的基础上通过消息传递进行聚类.与传统聚类方法相比,对于规模很大的数据集,AP是一种快速、有效的聚类方法.正是这样,属性约简对于AP算法非常重要.另外,在大规模并行系统的设计中,细粒度并行是实现高性能的基本策略.提出了一种基于改进属性约简的细粒度并行AP聚类算法(IRPAP),将粒度思想引入到并行计算中.首先分析了并行计算中的粒度原理.然后用改进的属性约简算法对数据集预处理.此算法并行计算并选择差别矩阵元素,降低了时间空间复杂度,最后用AP算法聚类.整个IRPAP算法将任务划分到多个线程同时处理.实验证明,对于大规模数据集的聚类,IRPAP算法比AP算法效率更高.  相似文献   

5.
一种基于层次聚类的属性全局离散化算法   总被引:1,自引:0,他引:1  
本文摒弃了以往利用断点集来进行离散化的算法思想,提出了一种新的基于粗糙集和分裂的层次聚类的全局离散化算法.本算法在层次聚类的基础上考虑不同连续属性离散化结果间的互补性和相关性,在不改变原信息系统不可分辨关系的前提下通过增类减类进行全局离散化.实验表明该算法具备了删除不必要属性的能力,提高了离散化的精度,更便于属性约简.  相似文献   

6.
基于约简数据集的FCM聚类算法   总被引:1,自引:0,他引:1  
为了解决模糊C-均值(FCM)聚类算法在使用欧氏距离计算样本与类中心点的距离时计算量大的问题,提出了一种基于属性约简的FCM聚类算法.该算法根据粗糙集理论对初始数据进行属性约简,消除数据对象中的冗余值,然后再对约简后的属性集进行模糊聚类.实验结果表明,该算法能有效减少FCM算法的距离函数计算量,在不降低聚类精度的前提下,提高了FCM算法的执行效率.  相似文献   

7.
李艳  范斌  郭劼  林梓源  赵曌 《计算机科学》2021,48(z1):342-348
基于k-原型聚类和等价关系下的粗糙集理论,对含有连续值和符号值的目标信息系统提出了一种新的适用于混合数据的属性约简方法.首先,k-原型聚类可以通过定义混合数据的距离而得到信息系统的类簇,形成对论域的划分.将所得到的类簇代替粗糙集理论中的等价类,提出基于聚类的近似集、正域以及正域约简的概念,并根据信息熵定义属性重要性度量...  相似文献   

8.
BTS(Best Two Step)聚类算法是结合层次聚类和划分聚类算法的两步聚类算法。层次聚类算法类与类之间不可以对象交换,很容易造成聚类质量不高的结果。而划分聚类对于初始值的设定以及异常噪声数据都很敏感,所以我们研究提出了BTS算法,实验证明BTS算法可达到高质量的聚类效果。  相似文献   

9.
针对传统属性约简算法利用等价关系计算过程繁琐,样本集较大时运行时间长的问题,提出一种利用模糊欧氏距离的快速属性约简算法.定义模糊欧氏距离计算属性间距离;应用层次商空间结构构建约简粒层空间;以粒层空间聚类结果作为约简基础,实现样本集属性约简.仿真结果表明,该算法约简速度不受样本集样本数量限制,运算速度较快,能够在不删除样...  相似文献   

10.
闫德勤 《计算机科学》2005,32(11):170-171
由于不完备信息系统不能完全适用于粗糙集等价类模型,其合理的属性约简方法的研究在当前是一个备受关注的研究热点。文章给出不完备信息系统等价关系的矩阵表示,同时给出了关于等价类矩阵以及核属性的相关定理,给出了应用等价类矩阵进行属性约简的方法和应用举例,为不完备信息系统的属性约简提供了一种新的方法。  相似文献   

11.
引入信息增益的层次聚类算法   总被引:3,自引:0,他引:3  
层次聚类分析是模式识别和数据挖掘领域中一个非常重要的研究课题,具有广泛的应用前景。受决策树学习中选择最佳分类属性的启发,提出一种引入信息增益的层次聚类方法,该方法利用信息增益指导层次聚类中的属性加权,从而提高聚类结果质量。在UCI数据集上的实验结果表明,该算法性能明显优于原层次聚类算法。  相似文献   

12.
提出了应用属性论来实现无监督图像聚类的方法。首先提取图像的底层特征,再利用属性论方法中定性映射、转换程度函数理论对图像进行分类。由于一次聚类并未达到很好的效果,因此采取了多次聚类的策略。实验结果表明,本方法简单明了并且有效。  相似文献   

13.
基于层次聚类的孤立点检测方法   总被引:2,自引:1,他引:2       下载免费PDF全文
孤立点检测是数据挖掘过程的重要环节,提出了基于层次聚类的孤立点检测(ODHC)方法。ODHC方法基于层次聚类结果进行分析,对距离矩阵按簇间距离从大到小检测孤立点,可检测出指定离群程度的孤立点,直到达到用户对数据的集中性要求。该方法适用于多维数据集,且算法原理直观,用户友好,对孤立点的检测准确率较高。在iris、balloon等数据集上的仿真实验结果表明,ODHC方法能有效地识别孤立点,是一种简单实用的孤立点检测方法。  相似文献   

14.
基于树编辑距离的层次聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为了识别犯罪嫌疑人伪造和篡改的虚假身份,利用树编辑距离计算个体属性相似性,证明了树编辑距离的相关数学性质,对属性应用层次编码方法,提出了一种新的基于树编辑距离的层次聚类算法HCTED(Hi-erarchical Clustering Algorithm Based on Tree Edit Distance)。新算法通过树编辑操作使用最少的代价计算属性相似性,克服了传统聚类算法标称型计算的缺陷,提高了聚类精度,通过设定阈值对给定样本聚类。实验证明了新方法在身份识别上的准确性和有效性,讨论了不同参数对实验结果的影响,对比传统聚类算法,HCTED算法性能明显提高。新算法已经应用到警用流动人口分析中,取得了良好效果。  相似文献   

15.
半监督聚类就是利用样本的监督信息来帮助提升无监督学习的性能。在半监督聚类中,成对约束(must-link约束和cannot-link约束)作为样本的先验知识被广泛地使用。凝聚层次聚类(AHC)也叫合成聚类,是层次聚类法的一种。提出了一种基于成对约束的半监督凝聚层次聚类算法(PS-AHC),该算法利用成对约束来改变聚类簇之间的距离,使聚类簇之间的距离更真实。在UCI数据集上的实验表明,PS-AHC能有效地提高聚类的准确率,是一种有前景的半监督聚类算法。  相似文献   

16.
传统的轨迹聚类方法存在定义轨迹相似度难度大,聚类过程中容易忽略轨迹细节等问题.基于矢量场的轨迹聚类(VFC)在保持轨迹原始运动特征的基础上,利用矢量场的几何结构可以很好地度量轨迹相似度.引入加权拟合方法,降低噪声对聚类的影响,以解决VFC鲁棒性较差问题.采用层次聚类动态地决定聚类类别数,以解决聚类类别数不能自适应的问题,提高聚类有效性.采用亚特兰大飓风数据作为实验原始轨迹数据,分别使用经典矢量场的轨迹聚类,k-means聚类,k-mediods聚类以及提出的方法进行实验,实验结果证明了加权拟合矢量场的层次聚类算法的有效性.  相似文献   

17.
信息系统中的属性约简是粗糙集知识发现的一个重要步骤。致力于研究一个信息系统中的特征选择、删除冗余属性。新的算法从属性重要性出发,采用迭代特征选择的标准,使得选择特征属性集不断缩小,获得信息系统的约简。通过实验证明该方法可行,有效。  相似文献   

18.
基于K-Means的文本层次聚类算法研究   总被引:6,自引:0,他引:6  
尉景辉  何丕廉  孙越恒 《计算机应用》2005,25(10):2323-2324
提出了一种基于K-Means的文本层次聚类算法。它结合凝聚层次聚类和K Means算法的特点,减少凝聚层次法在凝聚过程中的错误,提高了聚类质量。实验结果表明,该算法的聚类质量优于层次聚类法。  相似文献   

19.
王磊 《计算机应用》2020,40(7):1996-2002
面对日益复杂的网络环境,传统入侵检测方法误报率高、检测效率低,且存在优化过程中准确性和可解释性相互矛盾等问题,因此提出一种结合改进粗糙集属性约简和K-means聚类的网络入侵检测(IRSAR-KCANID)方法。首先基于模糊粗糙集属性约简对数据集进行预处理,优化异常的入侵检测特征;再利用改进K-means聚类算法估计入侵范围阈值,并对网络特征进行分类;然后根据用于特征优化的线性规范相关性,从所选择的最优特征探索特征关联影响尺度以形成特征关联影响量表,完成对异常网络入侵的检测。实验结果表明,特征优化聚类后的最小化测量特征关联影响量表能在保证最大预测精度的前提下,最小化入侵检测过程的复杂度并缩短完成时间。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号