共查询到20条相似文献,搜索用时 171 毫秒
1.
叶鹏 《电脑编程技巧与维护》2010,(20):20-22
介绍一种基于模糊逻辑的数据聚类技术,讨论了模糊C均值聚类方法。模糊C均值算法就是利用模糊逻辑理论和聚类思想,将n样本划分到c个类别中的一个,使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。 相似文献
2.
实体识别是数据质量的一个重要方面,对于大数据处理不可或缺.已有的实体识别研究工作聚焦于数据对象相似度算法、分块技术和监督的实体识别技术,而非监督的实体识别中匹配决定的问题很少被涉及.提出一种面向实体识别的聚类算法来弥补这个缺失.利用数据对象及其相似度构建带权重的数据对象相似图.聚类过程中,利用相似图上重启式随机游走来动态地计算类簇与结点的相似度.聚类的基本逻辑是,类簇迭代地吸收离它最近的结点.提出数据对象排序方法来优化聚类的顺序,提高聚类精确性;提出了优化的随机游走平稳概率分布计算方法,降低聚类算法开销.通过在真实数据集和生成数据集上的对比实验,验证了该算法的有效性. 相似文献
3.
为了更好地评价无监督聚类算法的聚类质量,解决因簇中心重叠而导致的聚类评价结果失效等问题,对常用聚类评价指标进行了分析,提出一个新的内部评价指标,将簇间邻近边界点的最小距离平方和与簇内样本个数的乘积作为整个样本集的分离度,平衡了簇间分离度与簇内紧致度的关系;提出一种新的密度计算方法,将样本集与各样本的平均距离比值较大的对象作为高密度点,使用最大乘积法选取相对分散且具有较高密度的数据对象作为初始聚类中心,增强了K-medoids算法初始中心点的代表性和算法的稳定性,在此基础上,结合新提出的内部评价指标设计了聚类质量评价模型,在UCI和KDD CUP 99数据集上的实验结果表明,新模型能够对无先验知识样本进行有效聚类和合理评价,能够给出最优聚类数目或最优聚类范围. 相似文献
4.
基于邻接关系的空间聚类算法研究 总被引:1,自引:0,他引:1
聚类指的是把数据库里的对象分组成有意义的子集,使得一个聚类内的成员尽可能相似,而不同聚类间的成员差异尽可能大。空闻对象的主要特性受其邻接对象的影响,并且随着距离的增加或减少,影响作用也相应地增加或减少。论文针对相邻空间对象的特性总是相似或相关联的特点,以邻接关系为基础对空间聚类算法进行了分析与研究。 相似文献
5.
聚类作为一种无监督的学习,能根据数据间的相似程度自动地进行分类。提出的基于交集的聚类组合新方法,借鉴了选举投票的思想。给定同一数据集的不同聚类结果,此算法先求出不同聚类结果中每个簇的对应关系,然后计算这几个聚类结果对应簇的交集,对剩余的有争议对象进行投票,最后把投票之后仍未确定归属的对象分配给最近对象所在的簇,或者不经过投票直接将有争议的对象分配给最近对象所在的簇。实验表明,两种方法都能明显改善聚类质量,投票后得到的结果要略优于不投票的结果。 相似文献
6.
从多角度分析现有聚类算法 总被引:51,自引:3,他引:51
聚类是数据挖掘中研究的重要问题之一.聚类分析就是把数据集分成簇,以使得簇内数据尽量相似,簇间数据尽量不同.不同的聚类方法采用不同的相似测度和技术.从以下3个角度分析现有流行聚类算法: (1)聚类尺度; (2)算法框架; (3)簇的表示.在此基础上,分析了一些综合或概括了一些其他方法的算法.由于分析从3个角度进行,所提出的方法能够涵盖,并区分绝大多数现有聚类算法.所做的工作是自调节聚类方法以及聚类基准测试研究的基础. 相似文献
7.
K-means聚类是一种简捷高效、收敛速度快且易于实现的统计分析方法,但是传统的K-means聚类算法对初始聚类中心的选取敏感且易陷入局部最优,同时多数无监督特征选择算法容易忽视特征之间的联系。为此,提出了一种结合人工蜂群与K-means聚类的特征选择方法。首先,为了使同一簇中样本的相似度高而不同簇中样本的相似度低,基于簇内聚集度和簇间离散度构建了新的适应度函数,更好地反映各样本的特性,进而构建了蜜源被选择新的概率表达式;其次,设计了随着迭代次数的增加而数值逐渐减小的权重,提出了使蜂群搜索范围动态缩进的蜜源位置更新表达式;然后,为了弥补传统的欧氏距离在计算距离时仅考虑向量之间的累积差异而表现出的局限性,构造了同时考虑样本影响程度不同以及样本的相似性的加权欧氏距离表达式;最后,引入标准差和距离相关系数,定义了特征区分度与特征代表性,以二者之积度量特征重要性。实验结果表明,所提算法加快了人工蜂群算法的收敛速度并提高了K-means算法的聚类效果,同时也有效地提升了特征选择的分类效果。 相似文献
8.
《计算机科学与探索》2016,(5):732-741
在传统K-means算法中,初始簇中心选择的随机性,导致聚类结果随不同的聚类中心而不同。因此出现了很多簇中心的选择方法,但是很多已有的簇中心选择算法,其聚类结果受参数调节的影响较大。针对这一问题,提出了一种新的初始簇中心选择算法,称为WLV-K-means(weighted local variance K-means)。该算法采用加权局部方差度量样本的密度,以更好地发现密度高的样本,并利用改进的最大最小法,启发式地选择簇初始中心点。在UCI数据集上的实验结果表明,WLV-K-means算法不仅能够取得较好的聚类结果,而且受参数变化的影响较小,有更加稳定的表现。 相似文献
9.
一个新的聚类有效性分析指标 总被引:1,自引:3,他引:1
聚类分析是无监督分类过程,其目的在于把目标对象划分为一系列有意义的组(或称类),使得每个组中的目标尽量"相似"或"接近",而不同组的目标尽可能"相异"或"远离".从而有助于发现目标的分布模式和目标间的相互关系.评估聚类质量的问题,称为聚类有效性分析.介绍一些典型分类算法,并提出了一种新的聚类有效性分析指标. 相似文献
10.
利用无监督聚类算法可以有效地保留数据特征的特性,提出采用无监督聚类算法来对数据样本进行降维处理的方法,通过将连续多次迭代分类结果进行按类数编码,得到快速判定聚类分析降维开始的可行条件及聚类结束条件,并以降维数据为数据样本,继续进行聚类分析,快速完成数据特征提取。通过实验证明该方法在数据降维效果和聚类算法的执行速度上都有很大提高。 相似文献
11.
12.
基于遗传算法和梯度算法的一种结构优化混合方法 总被引:2,自引:0,他引:2
基于遗传算法和梯度算法,文章提出了一种结构优化的混合方法。算例表明该方法兼具遗传算法的优良全局搜索能力和梯度算法的强大局部搜索的特点,且具有很好的工程适应性。 相似文献
13.
挖掘关联规则是数据挖掘中一个重要的课题,产生频繁项目集是其中的一个关键步骤。提出了一种改进算法,并将该算法与Apriori算法进行了比较。该算法只需要对数据库扫描一遍,并且存放辅助信息所需要的空间也少,结果表明该算法对关联规则挖掘较为有效。 相似文献
14.
提出了一种基于遗传算法的新的平面图画图算法,算法将平面图画图问题转化为约束优化问题,用遗传算法求解目标函数的最优解的近似值,从而得到平面图的平面直线画法.新算法的优点是:方法简单,易于实现,画出的图形美观.实验结果表明:算法画出的图形要比文献[8]中的算法画出的图形美观,而其收敛性则要高于标准遗传算法. 相似文献
15.
16.
针对传统迭代最近点(Iterative Closest Point, ICP)算法在初始空间位置偏差大时,容易陷入局部最优的问题,提出一种基于改进PSO-TrICP算法的点云配准方法。首先,对传统粒子群(Particle Swarm Optimization, PSO)算法进行改进,引入适应度的相似度测量准则调整粒子的更新方式,然后加入历次迭代的全局最优解的均值作为新的学习因子避免求解过程中出现“早熟”现象;其次用刚性变换参数和点云间的重叠率组成粒子,利用改进PSO算法为配准提供良好的初始相对位置;最后,通过裁剪迭代最近点(Trimmed Iterative Closest Point, TrICP)算法估计点云间的空间变换。实验结果表明,改进PSO-TrICP算法的配准精度与运行效率优于近年提出的同类配准算法,且具有较好的鲁棒性。 相似文献
17.
18.
19.
利用PNN算法改进初始码书的GLA算法 总被引:1,自引:0,他引:1
针对改进广义Lloyd算法(GLA)对初始码书的敏感性,提出用成对最近邻(PNN)算法训练码书作为GLA算法的初始码书,再由GLA算法产生最终码书。PNN算法得到的码书作为GLA算法的初始码书,其码字能在整个输入矢量空间中很好地散开,尽可能地占据输入概率密度较大区域,提高最后码书的质量。仿真实验中,利用正态分布的随机数训练码书,恢复一段正态分布的随机数,采用Mahalanobis失真测度评价恢复数据的失真度。仿真结果表明,改进算法降低了GLA算法对初始码书的敏感性,提高了最终训练码书的质量,降低了恢复数据的失真。 相似文献