首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
一种基于投票策略的聚类融合算法   总被引:1,自引:0,他引:1  
在分类算法和回归模型中,融合方法正得到越来越广泛的应用,但在非监督机器学习领域,由于缺乏数据集的先验知识,则不能直接用于聚类算法.提出并实现了一种基于投票策略的聚类融合算法,该算法利用k-means算法每次随机选取聚类中心而得到不同样本划分的特性,将多次运行得到的聚类结果通过投票的方式合并,从而得到最终的结果.通过一系列真实数据和合成数据集的实验证明,这种方法比单一的聚类算法能更有效地提高聚类的准确率.在此基础上,为了降低高维数据运算的复杂性,将随机划分属性子空间的方法应用到上述聚类融合算法中,实验证明,该方法同时也能够在一个属性子空间上获得好的聚类结果.  相似文献   

2.
刘德山 《计算机科学》2011,38(11):148-152
针对现有搜索结果分类算法在聚类标签筛选、聚类质量评估及控制重叠聚类方面的缺陷,提出了一种改进的基于向量空间模型与后缀树模型的检索结果聚类算法,从而完善了LINGO算法的聚类及聚类标签打分函数,增加了基本类合并过程,改善了对中文的处理效果。最后对算法的分类效果及产生标签的质量进了实验分析,基于carrot2框架,建立了Wcb搜索结果聚类推荐平台。验证了CQIG算法分类的准确性和聚类标签的区分性和可读性。  相似文献   

3.
为了提高蚁群聚类LF算法的聚类效果,在对基本LF算法改进的基础上,算法迭代过程中又进一步采用邻域线性增大和线性减小两种不同的方法,通过UCI数据集Iris和Wine数据的验证,使用FM作为聚类效果的评判标准,发现采用邻域线性递减的方法在两种数据集上运行的结果都优于邻域递增和邻域保持不变的情形.邻域递减策略使算法在运行初期能够对待聚类数据粗略的分类,随着邻域的减小,蚁群对数据分类的粒度逐渐细化,算法迭代结束,达到最佳的聚类结果.  相似文献   

4.
一种新型的基于密度和栅格的聚类算法*   总被引:2,自引:1,他引:1  
针对网格和密度方法的聚类算法存在效率和质量问题,给出了密度和栅格相结合的聚类挖掘算法,即基于密度和栅格的聚类算法DGCA(density and grid based clustering algorithm)。该算法首先将数据空间划分为栅格单元,然后把数据存储到栅格单元中,利用DBSCAN密度聚类算法进行聚类挖掘;最后进行聚类合并和噪声点消除,并将局部聚类结果映射到全局聚类结果。实验通过人工数据样本集对该聚类算法进行理论上验证,表明了该算法在时间效率和聚类质量两方面都得到了提高。  相似文献   

5.
基于K-means算法思想改进蚁群聚类算法聚类规则,提出一种新的K-means蚁群聚类算法,并通过实验验证其聚类效果;引入具有全局最优性的支持向量机SVM,取各类中心附近适当数据训练支持向量机,然后利用已获模型对整个数据集进行重新分类,进一步优化聚类结果,使聚类结果达到全局最优。UCI数据集实验结果表明,新的算法可以明显提高聚类质量。  相似文献   

6.
在图像分类中,视觉词典的质量直接影响着图像分类的结果,随着用户的要求提高,K-means聚类算法所构建的视觉词典已无法满足用户对图像分类的需求,为了得到高效的视觉词汇码本,针对构建视觉词典的算法进行研究,通过K-means算法和层次聚类算法的结合来达到这一目的。混合聚类算法采用K-means算法对数据样本进行初步聚类,得到一个粗略的划分;引入信息熵的属性加权,利用信息熵度量某个属性的关键性,信息熵越大的属性对聚类结果的影响越小,计算加权后的类间欧式距离,将距离相近的两个类进行合并;在空间金字塔模型框架中,将改进的混合聚类方法应用到视觉词典的构建中。实验结果表明,结合信息熵的层次聚类算法能有效提高空间金字塔模型的分类准确率。  相似文献   

7.
针对大规模、高维、稀疏的分类数据聚类,CLOPE算法相比于传统的聚类算法在聚类质量及运行速度上都有很大的提升。然而CLOPE算法存在聚类的质量不稳定、没有区分每维属性对聚类的贡献度、需要预先指定排斥因子r等问题。为此,提出基于随机顺序迭代和属性加权的分类数据聚类算法(RW-CLOPE)。该算法利用"洗牌"模型对原始数据进行随机排序以排除数据输入顺序对聚类质量的影响。同时,根据信息熵计算各个属性的权重,以区别每维属性对聚类的贡献度,极大地提升了数据聚类的质量。最后,在高效的集群平台Spark上,实现了RW-CLOPE算法。在三个真实数据集上的实验结果表明:在数据集乱序后的份数相同时,RW-CLOPE算法比p-CLOPE算法取得更好的聚类质量。对蘑菇数据集,当CLOPE算法取得最优聚类结果时,RW-CLOPE比CLOPE取得高68%的收益值,比p-CLOPE取得高25%的收益值;针对大量数据,基于Spark的RW-CLOPE算法比基于Hadoop的p-CLOPE算法执行时间更短;计算资源充足时,随机顺序的数据集份数越多,执行时间的提升越明显。  相似文献   

8.
针对现有地理信息数据分类不能体现数据归属的多类别共存性问题,提出一种使用聚类和并行计算技术提高数据分类的有效性和效率的并行地理信息数据聚类算法,并实现相应的数据自动分类系统。采用文本向量建模和抽取数据的类别特征,然后采用基于GPU的并行k-means聚类算法对数据进行类别划分。实验表明,设计的并行聚类算法体现了特征属性归属的多类别交叉性,具有较好的运行性能和扩展性。  相似文献   

9.
基于分类的半监督聚类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种基于分类的半监督聚类算法。充分利用了数据集中的少量标记对象对原始数据集进行粗分类,在传统k均值算法的基础上扩展了聚类中心点的选择方法;用k-meansGuider方法对数据集进行粗聚类,在此基础上对粗聚类结果进行集成。在多个UCI标准数据集上进行实验,结果表明提出的算法能有效改善聚类质量。  相似文献   

10.
刘建伟  李卫民 《计算机科学》2009,36(11):148-151
传统的数据库管理系统和数据查询算法不能很好地支持对流数据的查询已经被广泛认识,因而需要研究新的流数据模式查询算法.提出了一种基于摘要技术的在线快速混合模型流数据聚类算法,该算法为分阶段混合模型聚类过程.算法首先时最初到达的流数据用多维网格结构进行划分,对划分形成的每一个单元进行数据摘要,提取足够的统计信息.对该摘要运行基于模型的贪心聚类算法,聚类形成的混合模型的摘要信息存储在永久摘要数据库中,从而形成初始聚类混合模型;在聚类模型的维持过程中,当不断有流数据到达时,对到达的数据块用多维网格结构进行划分,对划分形成的每一个单元提取足够的摘要信息.对该摘要运行基于模型的贪心聚类算法形成聚类混合模型.在判断是否可以把新到达的模型合并到现有的混合模型中去时,提出了三种合并标准.实验表明,该算法减少了分类误差,其速度也比传统的基于模型的贪心聚类算法大大加快.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号