首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
一种带控制节点的最小生成树聚类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
综合考虑对象间相对距离和高等级对象对低等级对象的集聚效应这两种聚类影响因素,提出了一种带控制节点的最小生成树聚类方法。该方法用聚类对象间距离为权构建一棵最小生成树,将树中高等级节点作为分割最小树时选取被打断边的控制因素,使本次分割而成的两子树都包含控制节点,且被打断的边是在此条件下的最长边,最终使每棵子树包含且仅包含一个控制节点。检验自构建数据和地震数据的聚类结果证明,该方法在某些情况下能够较好地揭示数据分布的真实规律。  相似文献   

2.
基于密度的最小生成树聚类算法研究   总被引:2,自引:0,他引:2  
基于密度的方法是一种相当有效的聚类方法,能够发现任意形状的聚类,对噪声数据不敏感,但是聚类结果严重依赖于用户参数的合理选择。针对其存在的问题,将最小生成树理论与基于密度的方法相结合,提出了一种基于密度的最小生成树聚类算法。通过构造、分割最小生成树得到确定样本空间划分的最小生成子树;根据子树特性,产生局部密度参数;并对生成子树进行局部密度聚类。理论分析和应用结果表明。该算法不仅体现了基于密度聚类方法的优点,聚类结果不依赖于用户参数的选择,使数据聚类更合理,特别是对大型数据库非常有效;也体现了数据分区的思想,使其可以并行执行,进一步提高了信息处理的时空效率和性能。  相似文献   

3.
国内外学者提出了许多频繁子树挖掘算法.这些算法使用的均是固定最小支持度.一般说来,具有较高支持度的短子树通常是有趣的;而对于长子树,即使支持度相对低一些也可能有趣.这就要求挖掘过程中最小支持度的值随着树中节点数的增加而减小.提出了快速挖掘可变支持度约束的闭合与最大频繁Induced子树的算法--SCCMTreeMiner. 该算法采用最右扩展技术枚举候选子树,以及两种新的剪枝方法提高挖掘效率,挖掘过程中最小支持度的设定随着树中节点数的增加而减小.实验结果表明,SCCMTreeMiner生成的子树数量和执行时间与CMTreeMiner算法相比都有大幅度减少.  相似文献   

4.
目前大多数频繁子树算法都是挖掘频繁子树完全集,这些算法数据搜索空间的内存开销和输出的结果集都非常庞大.为了减小结果集,提出基于子树约束的最大频繁子树算法--CSMTreeMiner,采用垂直和层次扩展的方法来枚举频繁子树,并使用覆盖关系来对不可能生成最大频繁子树的模式进行删除.实验结果验证CSMTreeMiner算法的有效性和稳定性.  相似文献   

5.
针对云平台下大数据资源挖掘过程准确率低、耗时长等问题,对大数据资源挖掘技术进行改进研究;利用MST聚类法对云平台数据集进行预处理,根据数据间的关联性来增强检测结果,并提高数据索引效率,将数据间的邻接矩阵作为边的权值,生成全图的MST,获取评价数据资源挖掘准确度的标准,并得到k个最小生成子树,其中的一个子树就是数据集最优聚类结果;实验结果表明,所提方法有效提高了大数据挖掘准确性,使得数据资源得到了更高效的利用。  相似文献   

6.
基于数据区域发现的信息抽取规则生成方法   总被引:2,自引:2,他引:0       下载免费PDF全文
提出一种自动检测网页中数据记录结构特点并生成Web信息抽取规则的方法,以网页DOM树为基础,自动发现和分离Web数据区域所对应的DOM子树,将其分解为数据记录子树集合,综合数据记录子树的结构特点生成抽取规则。实验结果显示,该方法具有较高的抽取准确率和查全率。  相似文献   

7.
提出一种基于优化网格的最小生成树聚类算法OGMST(MST Clustering Algorithm Based on Optimized Grid),一方面利用最小生成树的方法进行聚类,另一方面利用了参数自动化的网格划分技术和密度阈值处理技术,解决了最小生成树聚类算法不适用于多密度数据集的局限性,提高了现有的多密度聚类算法的效率和精度.算法还对边界点进行了有效的处理.实验表明算法具有较好的可扩展性,是一种高效、快速的聚类算法.  相似文献   

8.
在单向FP-tree上挖掘频繁闭项集   总被引:1,自引:0,他引:1       下载免费PDF全文
频繁闭项集提供了频繁项集的一种完整的、最小表示。针对稠密数据集,提出一种基于单向FP-tree的频繁闭项集挖掘算法Unid_FP-FCI。该算法在挖掘过程中只生成被约束子树,而它是一种虚拟的树结构,在原有的单向FP-tree基础上用三个很小的数组来表示,因而避免了以往算法需递归构造条件FP-tree来计算频繁闭项集的弊端,极大地降低了内存空间和时间开销,提高了挖掘效率。  相似文献   

9.
非均衡数据的最小二乘支持向量机阈值新算法   总被引:1,自引:1,他引:0  
陈青  薛惠锋  杜喆 《计算机仿真》2011,28(3):219-221,329
针对传统的最小二乘支持向量机对于非均衡数据的分类时,分类结果具有对较大类数据的偏向性问题,为了减小分类器的负担和样本的错误率.提出一种新的最小二乘支持向量机阈值计算方法进行修正.根据线性判别思想,计算出两类样本的在分类超平面法向量上的投影点的均值和方差,依据对两类样本错分概率相等准则,给出新的阈值计算方法从而实现对超平...  相似文献   

10.
局部子空间聚类   总被引:6,自引:1,他引:5  
刘展杰  陈晓云 《自动化学报》2016,42(8):1238-1247
现有子空间聚类方法通常以数据全局线性为前提,将每个样本点表示为其他样本点的线性组合,因而导致常见子空间聚类方法不能很好地应用于非线性数据.为克服全局线性表示的局限,借鉴流形学习思想,用k近邻局部线性表示代替全局线性表示,与稀疏子空间聚类和最小二乘子空间聚类方法相结合,提出局部稀疏子空间聚类和局部最小二乘子空间聚类方法,统称局部子空间聚类方法.在双月形数据、6个图像数据集和4个基因表达数据集上进行实验,实验结果表明该方法是有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号