共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
3.
针对基于密度的空间聚类及其变种提出了拓扑的概念。给出了聚类拓扑结构的定义,把簇定义为多种拓扑连通集合。此外,运用全新的拓扑思想改进典型的算法,提出了一种拓扑聚类的新算法。实例证明此算法有效。 相似文献
4.
传统的覆盖方法形成的覆盖都是"优簇",但是无法形成非球状的覆盖;而聚类求覆盖的方法就可以得到非球状覆盖,但是由于很难事先找到合适的相似度,所以无法求得全部"优簇".文中把两者的优点结合起来并加以推广,与SVM, NaiveBayes,交叉覆盖等学习方法相结合,形成基于聚类优化覆盖的集成学习方法,这样求得的覆盖既可以是非球状覆盖,又是全"优簇",优化了覆盖领域.实验证明该方法产生的覆盖不仅数量上较少,并且覆盖的准确率较高,具有一定的抗噪声能力. 相似文献
5.
首先提出了一种基于属性值的co-occurrence相似度概念,通过对其进一步的研究,提出了3个等价性表述;然后对属性值之间的co-occurrence相似度进行引申,给出了数据对象之间co-occurrence相似度的定义,并将其成功应用到聚类集成方法中。利用co-occurrence相似度在计算某个初始聚类结果中数据对象之间的相似度时,充分考虑了其他初始聚类结果和该初始聚类结果之间的相互影响和联系。实验表明, 基于co-occurrence相似度的聚类集成(CSCE)方法能有效识别数据之间的细微结构,有助于提高聚类集成的效果。 相似文献
6.
点击流数据是分析互联网用户心理倾向的关键,互联网用户的聚类可以通过分析点击流数据实现. 本文提出了一种基于向量的相似度计算方法,将点击流数据转化为向量数据. 通过对向量的计算来得出聚类的结果. 算法克服了传统的聚类算法的一些缺点,更能符合研究人员研究Web点击流数据时关于个性化聚类的要求. 相似文献
7.
为了提高高维混合属性数据挖掘效果,提出基于K-Means聚类算法的高维混合属性数据挖掘方法.通过分析数值型数据和分类型数据相似度,获取高维混合属性数据度量标准,将簇中心点设为簇里点的平均数值或质心,引入最大距离自动生成k值策略与坐标转换策略,优化聚类结果;依据欧几里得距离聚类剩余数据,根据最大间距对应的数据中心点坐标与... 相似文献
8.
当前的搜索引擎中,存在大量的冗余搜索结果,且不能对搜索结果进行指导分类。本文提出一种基于密度的聚类算法,能够有效地对搜索结果进行聚类优化和分类。该算法选取搜索结果中权重高于一定值的网页,提取网页的特征值与候选关键字,标注特征范围,再进行网页相似度比较,最大限度地消除冗余网页,并根据网页的候选关键字提供分类,从而提高搜索结果的精准性和满意度,达到更智能的效果。 相似文献
9.
10.
11.
针对传统协同过滤算法中数据稀疏造成推荐准确度低以及K-means聚类算法需要预先确定聚类个数的问题,提出自适应K-means聚类算法(SKCA)。引入物理学中的拓扑势场理论,利用拓扑势值进行用户重要性表示并获得用户影响范围,结合改进K-means算法完成用户聚类并得到各类代表用户,目标用户通过与各代表用户进行用户相似度计算确定最优代表用户,在最优代表用户场域内使用协同过滤算法进行推荐。与其它算法对比的实验结果表明,SKCA在准确率、F值及运行效率上都有提升,有效缓解了数据稀疏的影响。 相似文献
12.
罗来鹏 《计算机应用与软件》2007,24(5):151-152,162
根据决策规则在实际应用中的匹配思想,对数值型一致决策表提出了一种基于模糊聚类方法的决策表约简方法.该方法在保持决策表一致性的前提下,通过冗余度大小的调整,对具有相同决策的对象进行压缩,从而达到对决策表约简的目的.基于计算相关规则的直接分类法验证结果显示,它是有效和可行的. 相似文献
13.
《计算机应用与软件》2015,(10)
实际生活中,经常会遇到大规模数据的分类问题,传统k-近邻k-NN(k-Nearest Neighbor)分类方法需要遍历整个训练样本集,因此分类效率较低,无法处理具有大规模训练集的分类任务。针对这个问题,提出一种基于聚类的加速k-NN分类方法 C_kNN(Speeding k-NN Classification Method Based on Clustering)。该方法首先对训练样本进行聚类,得到初始聚类结果,并计算每个类的聚类中心,选择与聚类中心相似度最高的训练样本构成新的训练样本集,然后针对每个测试样本,计算新训练样本集中与其相似度最高的k个样本,并选择该k个近邻样本中最多的类别标签作为该测试样本的预测模式类别。实验结果表明,C_k-NN分类方法在保持较高分类精度的同时大幅度提高模型的分类效率。 相似文献
14.
基于页面聚类的推荐算法常被应用在个性化推荐系统中,但是很少考虑页面访问的顺序性.针对这种弊端,提出了一种新的路径相似度系数,同时在推荐算法中运用了关联规则,提高了推荐结果的准确性. 相似文献
15.
蚂蚁等群居式昆虫具有分布式、自组织、基于信息素间接通信(pheromone)等群体协作能力,模拟其智能行为的蚁群算法解决了许多复杂的问题并在并在数据聚类分析领域取得成效。本文首先介绍了基于蚂蚁的聚类算法的基本理论,讨论了参数σ对邻域平均相似度的影响并做了实验分析比较,然后提出利用离散点对算法进行改进,通过对离散点的检测算法能够对蚂蚁行为进行控制,使蚂蚁快速地决定下一个负载节点,从而有效地缩短聚类分折的执行时间。实验表明改进后的蚂蚁聚类算法具有较好的聚类特性,其收敛性也得到了有效改善。 相似文献
16.
17.
18.
为了更好地实现聚类,在汲取传统的划分算法、层次算法特性的基础上,提出了一种新的基于划分和层次的混合聚类算法(MPH),该算法将聚类的过程分为分裂和合并两个阶段,在分裂阶段反复采用k-means算法,将数据集划分为多个同质的子簇,在合并阶段采用凝聚的层次聚类算法。实验表明,该算法能够发现任意形状、任意大小的聚类,并且对噪声点不敏感。 相似文献
19.
针对一种特定类型高属性维数据———区间变量型高属性维稀疏数据聚类问题,提出高属性维稀疏信息系统,稀疏特征编码,基于二进制数计算相似度概念,给出一种新的基于二进制数计算相似度的高属性维稀疏数据聚类算法,由于计算属性稀疏特征相似度所采用的是二进制数布尔AND运算,因此,相比目前人们所使用的聚类算法,它是一种计算简单、精度高、聚类质量较高的聚类算法。该算法在高属性维稀疏数据挖掘及聚类分析中有着重要的应用。通过数值算例分析表明该聚类方法有效。 相似文献
20.
用于Web文档聚类的基于相似度的软聚类算法 总被引:3,自引:1,他引:3
提出了一种基于相似度的软聚类算法用于文本聚类,这是一种基于相似性度量的有效的软聚类算法,实验表明通过比较SISC和诸如K-mcans的硬聚类算法,SISC的聚类速度快、效率高。最后展望了文本挖掘在信息技术中的发展前景。 相似文献