首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
K-Means算法是一种基于划分方法的经典聚类算法,已经在很多领域得到广泛的应用.虽然该算法有很多优点,但其也存在自身的局限性,比如需要用户输入聚类簇个数,初始聚类中心是随机性选择的,算法容易陷入局部最优解,对孤立点比较敏感等.文中首先应用统计学中的标准分数对样本进行孤立点分析,然后提出一种新的初始聚类中心确定策略.对改进的算法和原算法分别做实验进行比较,实验结果表明,改进的算法在准确率、收敛速度和稳定性方面都有很大的提高.  相似文献   

2.
K-Means算法是一种经典的聚类算法,有很多优点,也存在许多不足。比如初始聚类数K要事先指定,初始聚类中心选择存在随机性,算法容易生成局部最优解,受孤立点的影响很大等。文中主要针对K-Means算法初始聚类中心的选择以及孤立点问题加以改进,首先计算所有数据对象之间的距离,根据距离和的思想排除孤立点的影响,然后提出了一种新的初始聚类中心选择方法,并通过实验比较了改进算法与原算法的优劣。实验表明,改进算法受孤立点的影响明显降低,而且聚类结果更接近实际数据分布。  相似文献   

3.
K-Means聚类算法的研究   总被引:6,自引:0,他引:6  
K-Means算法是一种经典的聚类算法,有很多优点,也存在许多不足.比如初始聚类数K要事先指定,初始聚类中心选择存在随机性,算法容易生成局部最优解,受孤立点的影响很大等.文中主要针对K-Means算法初始聚类中心的选择以及孤立点问题加以改进,首先计算所有数据对象之间的距离,根据距离和的思想排除孤立点的影响,然后提出了一种新的初始聚类中心选择方法,并通过实验比较了改进算法与原算法的优劣.实验表明,改进算法受孤立点的影响明显降低,而且聚类结果更接近实际数据分布.  相似文献   

4.
基于概念格的文本聚类   总被引:1,自引:0,他引:1  
针对文本聚类所面临的维数灾难、稀疏向量以及标准K-Means算法初始中心点选择的随机性等问题,提出了一种基于概念格的文本聚类算法,且该算法不需要评价函数。实验结果验证了该算法的有效性。  相似文献   

5.
针对K-Means算法所存在的问题,提出了一种改进的K-Means算法,该方法通过选取相互距离最远的数据点作为初始聚类中心,能够很好地排除随机选取初始聚类中心点的影响.通过实验验证,相对于传统K-Means算法,改进K-Means算法能够获得更好的聚类效果.  相似文献   

6.
对教学反思内容的准确评估是教师基于教学反思过程提升其专业能力的重要保障。基于改进的K-Means算法对相同主题的教学反思文本进行聚类,通过给定初始聚类中心K的取值范围使其可以在给定范围内自动增加,在聚类过程中加入相似度阈值以限定文本间相似度的取值范围,实现对教学反思文本的分类和对自我反思文本的定位。实验结果表明改进的K-Means算法在反思文本聚类的准确率和稳定性方面比传统算法有所提高,且能根据教学反思内容准确地进行自动分类。  相似文献   

7.
K-Means聚类算法研究综述   总被引:2,自引:0,他引:2       下载免费PDF全文
K-均值(K-Means)算法是聚类分析中一种基于划分的算法,同时也是无监督学习算法。其具有思想简单、效果好和容易实现的优点,广泛应用于机器学习等领域。但是K-Means算法也有一定的局限性,比如:算法中聚类数目K值难以确定,初始聚类中心如何选取,离群点的检测与去除,距离和相似性度量等。从多个方面对K-Means算法的改进措施进行概括,并和传统K-Means算法进行比较,分析了改进算法的优缺点,指出了其中存在的问题。对K-Means算法的发展方向和趋势进行了展望。  相似文献   

8.
传统的K-Means聚类算法只能保证收敛到局部最优,从而导致聚类结果对初始代表点的选择非常敏感;凝聚层次聚类虽无需选择初始的聚类中心,但计算复杂度较高,而且凝聚过程不可逆。结合网络舆情的特点,深入剖析了K-Means聚类算法和凝聚层次聚类算法的优缺点,对K-Means聚类算法进行改进。改进后算法的核心思想是,结合两种算法分别在初始点选择和聚类过程两个方面的优势,进行整合优化。通过实验分析及实际应用表明,改进后的文本聚类算法在很大程度上可以提高网络舆情信息聚类结果的准确性、有效性以及算法的效率。  相似文献   

9.
基于K-Means的文本层次聚类算法研究   总被引:6,自引:0,他引:6  
尉景辉  何丕廉  孙越恒 《计算机应用》2005,25(10):2323-2324
提出了一种基于K-Means的文本层次聚类算法。它结合凝聚层次聚类和K Means算法的特点,减少凝聚层次法在凝聚过程中的错误,提高了聚类质量。实验结果表明,该算法的聚类质量优于层次聚类法。  相似文献   

10.
针对K-Means聚类算法依赖于初始聚类中心选择的问题,利用鲸鱼优化算法易于获取全局最优解及快速收敛性的优势,结合分布式框架的并行优势,提出了一种基于Flink的鲸鱼优化K-Means聚类算法。通过鲸鱼优化算法对领头鲸迭代更新、优化位置,用算法的最优解作为聚类中心替代K-Means算法的随机聚类中心,改进后的算法聚类效果较好、收敛速度快,有效结合了智能算法及分布式框架的优势。  相似文献   

11.
基于同类概念的概念格横向合并算法   总被引:4,自引:0,他引:4  
张磊  沈夏炯  贾培艳  许研 《计算机应用》2006,26(8):1900-1903
提出了同类概念的观点,在格的合并算法中通过利用同域概念格之间的同类概念和概念的父—子关系实现对其所有子节点的快速更新,以提高概念格横向合并算法的时间效率。并进一步论证了把节点数量较少的格插入到节点多的格中比反着做更省时间。实验表明,该算法和相关文献中的同域概念格横向合并算法相比,其时间性能有明显改善。  相似文献   

12.
数据挖掘中传统的关联规则生成算法产生的关联规则集合相当庞大,其中很多规则可由其它规则导出。使用闭项集可以减少规则的数目,而概念格节点间的泛化和例化关系非常适用于规则的提取。目前几种基于概念格的规则提取算法局限于得到准确支持度、信任度的无冗余规则。提出了一种在概念格上挖掘出能推导出所有满足最小支持度、信任度规则的规则产生集算法,文中称之为组规则产生集算法,减少了规则的规模。在此基础上进一步给出了组规则产生集的存储数据结构并用其导出一般规则产生集的算法。  相似文献   

13.
用传统的规则生成算法产生的关联规则集合相当庞大,其中很多规则可由其它规则导出。使用闭项集可以减少规则的数目,而概念格节点间的泛化和例化关系非常适用于规则的提取。目前几种基于概念格的规则提取算法局限于得到准确支持度、信任度的无冗余规则。提出了一种在概念格上挖掘出能推导出所有满足最小支持度、信任度规则的规则产生集算法,文中称之为组规则产生集算法,减少了规则的规模,提高了挖掘效率,进一步给出了组规则产生集的存储数据结构和根据应用需要用其导出单一后项规则的算法。  相似文献   

14.
Traditional outlier mining methods identify outliers from a global point of view. These methods are inefficient to find locally biased data points (outliers) in low dimensional subspaces. Constrained concept lattices can be used as an effective formal tool for data analysis because constrained concept lattices have the characteristics of high constructing efficiency, practicability and pertinency. In this paper, we propose an outlier mining algorithm that treats the intent of any constrained concept lattice node as a subspace. We introduce sparsity and density coefficients to measure outliers in low dimensional subspaces. The intent of any constrained concept lattice node is regarded as a subspace, and sparsity subspaces are searched by traversing the constrained concept lattice according to a sparsity coefficient threshold. If the intent of any father node of the sparsity subspace is a density subspace according to a density coefficient threshold, then objects contained in the extent of the sparsity subspace node are considered as bias data points or outliers. Our experimental results show that the proposed algorithm performs very well for high red-shift spectral data sets.  相似文献   

15.
谭喆  胡学钢 《计算机应用》2009,29(5):1409-1411
现有的概念格并行/分布式构造算法在处理较大规模数据时,需要搜索大量不相关概念,降低了算法性能。为此,提出了一种基于索引的概念格分布式构造方法——LCBI,插入新概念时先利用索引快速找出新概念的极大相关概念,再对所有极大相关概念的子概念进行自顶向下地并行搜索以找出它们的交叉子概念,从而减少了搜索范围。理论分析和实验表明,在处理大规模稠密数据时,LCBI比其他分布式算法具有较明显的优势。  相似文献   

16.
概念格是根据数据集中对象与属性之间的二元关系建立的一种概念层次结构,生动简洁地体现了概念之间的泛化和特化关系。利用概念格的这一特性,提出利用概念格理论进行故障诊断时的属性约简。为验证属性约简的正确性,将约简结果送到神经网络中进行故障诊断,诊断结果表明:利用概念格理论所得到的核心属性和相对必要属性可以对现有故障类型进行正确辨识,降低了故障诊断参数的维数,有利于加快诊断算法的运算速度。  相似文献   

17.
马洋  张继福  张素兰 《计算机应用》2009,29(5):1397-1400
约束概念格是数据分析的一种有效工具,在其构造的过程中,大量的内涵之间比较操作是导致格的构造效率低下的主要原因之一。采用剪枝技术来消除构造过程中存在的冗余内涵比较,给出约束概念格渐进式构造算法PCCL。该算法利用父子节点内涵的严格单调关系,自顶向下扫描格节点,减少了新增对象属性集与原概念格节点内涵的比较次数,从而提高了约束概念格的构造效率。最后以天体光谱数据作为形式背景,实验验证了PCCL算法的正确性,且构造效率平均提高了15%以上。  相似文献   

18.
基于约简概念格的关联规则提取改进算法*   总被引:3,自引:1,他引:2  
陈湘  吴跃 《计算机应用研究》2011,28(4):1293-1295
概念格是关联规则挖掘领域中的一种重要技术,在概念格上生成所有的频繁项集需要对概念格的节点进行排序并进行一一比较。为了提高在概念格上生成频繁项集的效率,本文提出了一个基于约简概念格的生成频繁项集的新算法。该算法通过利用节点之间的父子关系能够直接生成生成全部频繁项集,省略了对节点进行排序的时间开销,并且大大减少了节点比较的次数,从而提高了频繁项集的生成效率。实验结果证明了其可靠性和高效性。  相似文献   

19.
通过对概念格渐进式构造过程的分析,采用树结构对概念格节点进行组织,研究了利用这种树状组织的渐进式生成属性优先的概念格的构造算法。并结合实例说明了概念格的树结构组织在属性优先的渐进式生成概念格时,能有效地缩小产生子格节点的搜索范围和新增格节点的父节点和子节点的搜索范围,从而能快速生成概念格。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号