排序方式: 共有14条查询结果,搜索用时 15 毫秒
2.
针对传统谱聚类算法仅考虑数据点对点间的相互关系而未考虑数据间可能隐藏的复杂的相关性的问题,提出一种基于超图和自表征的谱聚类方法。首先,建立数据的超图,得到超图的拉普拉斯矩阵表示;然后,利用L2,1-范数对样本进行行稀疏自表征,同时融入超图来描述数据间多层次的相互关系;最后,利用生成的自表征系数进行谱聚类。利用基于超图的样本自表征技术考虑了样本之间复杂的相关性。通过在Hopkins155等数据集上的实验表明,在聚类错误率评判标准下,算法优于现有基于普通图的谱聚类算法SSC、SRC等。 相似文献
3.
Web文档聚类是web数据挖掘的重要任务之一,针对Web文档向量空间的高维性与数据聚类问题的最优化性质,采用LDA对文档向量空间进行降维,提出运用混合优化算法GA_PSO在此低维空间进行寻优,来发现Web文档集的最优簇结构.通过在真实数据集20Newsgroups的实验,结果表明我们的方法具有良好的聚类有效性,能较完全和准确地将主题相关的Web文档聚成一类. 相似文献
4.
5.
6.
7.
为解决k‐NN算法中固定k的选定问题,引入稀疏学习和重构技术用于最近邻分类,通过数据驱动(data‐driven)获得k值,不需人为设定。由于样本之间存在相关性,用训练样本重构所有测试样本,生成重构系数矩阵,用 l1‐范数稀疏重构系数矩阵,使每个测试样本用它邻域内最近的k (不定值)个训练样本来重构,解决k‐NN算法对每个待分类样本都用同一个k值进行分类造成的分类不准确问题。UCI数据集上的实验结果表明,在分类时,改良k‐NN算法比经典k‐NN算法效果要好。 相似文献
8.
9.
一种新的关联规则挖掘的模型 总被引:1,自引:0,他引:1
1.引言 support-confidence模型是正关联规则挖掘普遍应用的模型,而如何度量关联规则的不确定性则是正关联规则挖掘中的重要问题之一。在该模型中,用supp(X∪Y)和conf(X→Y)来度量关联规则X→Y的不确定性。然而,用这一度量标准可能会得到诸如X→Y,但X与Y不相关(或独立)的规则。可见,用conf(X→Y)来度量关联规则是不够的. 实际应用中,我们不仅要挖掘正关联规则,而且还要挖掘负关联规则。正关联规则即形如X→Y的式子,负关联规则即形如X→Y的式子,其中X,YI,X∩Y=,I为数据库D中的所有项的集合,首先看一个例子,若p(c)=0.6,p(t)=0.4,p(t∪c)=0.05,p(t∪c)=0.35,minconf=0.52,有p(t∪c)/p(t)=0.05/0.4=0.125minconf。因此,t→c为一有效规则。 相似文献
10.
苏毅娟 《计算机工程与应用》2009,45(15):169-172
缺失填补是机器学习与数据挖掘领域中极富有挑战性的工作。数据源中的缺失值会对学习算法的性能与学习的质量产生较大的负面影响。目前存在的缺失值填补方法还不能满足用户的需要。提出了一种基于灰色系统理论的缺失值填补方法,该方法采用了基于实例学习的非参拟合和灰色理论技术,对缺失数据进行重复填补,直至填补结果收敛或者满足用户的需要。实验结果表明,该方法在填补效果与效率方面都比现有的KNN填补法和普通的均值替代法要好。 相似文献