排序方式: 共有14条查询结果,搜索用时 0 毫秒
2.
针对传统谱聚类算法仅考虑数据点对点间的相互关系而未考虑数据间可能隐藏的复杂的相关性的问题,提出一种基于超图和自表征的谱聚类方法。首先,建立数据的超图,得到超图的拉普拉斯矩阵表示;然后,利用L2,1-范数对样本进行行稀疏自表征,同时融入超图来描述数据间多层次的相互关系;最后,利用生成的自表征系数进行谱聚类。利用基于超图的样本自表征技术考虑了样本之间复杂的相关性。通过在Hopkins155等数据集上的实验表明,在聚类错误率评判标准下,算法优于现有基于普通图的谱聚类算法SSC、SRC等。 相似文献
3.
Web文档聚类是web数据挖掘的重要任务之一,针对Web文档向量空间的高维性与数据聚类问题的最优化性质,采用LDA对文档向量空间进行降维,提出运用混合优化算法GA_PSO在此低维空间进行寻优,来发现Web文档集的最优簇结构.通过在真实数据集20Newsgroups的实验,结果表明我们的方法具有良好的聚类有效性,能较完全和准确地将主题相关的Web文档聚成一类. 相似文献
4.
5.
6.
7.
为解决k‐NN算法中固定k的选定问题,引入稀疏学习和重构技术用于最近邻分类,通过数据驱动(data‐driven)获得k值,不需人为设定。由于样本之间存在相关性,用训练样本重构所有测试样本,生成重构系数矩阵,用 l1‐范数稀疏重构系数矩阵,使每个测试样本用它邻域内最近的k (不定值)个训练样本来重构,解决k‐NN算法对每个待分类样本都用同一个k值进行分类造成的分类不准确问题。UCI数据集上的实验结果表明,在分类时,改良k‐NN算法比经典k‐NN算法效果要好。 相似文献
8.
针对K最近邻填充算法(K-nearest neighbor imputation,KNNI)的参数K值固定问题进行了研究,发现对缺失值填充时,参数K值固定很大程度上影响了填充效果.为此,提出了基于稀疏编码的最近邻填充算法来解决这一问题.该算法是用训练样本重构每一缺失样本,在重构过程中充分考虑了样本之间的相关性;并用e1范数来学习确保每个缺失样本用不同数目的训练样本填充,以此解决KNNI算法参数K值选取问题.基于数据性能分析指标RMSE和相关系数的实验比较结果表明,该算法比KNNI算法的效果要好.该算法能很好地避免了KNNI算法存在的缺陷,适用于数据预处理环节需要对缺失值进行填充的应用领域. 相似文献
9.
一种新的关联规则挖掘的模型 总被引:1,自引:0,他引:1
1.引言 support-confidence模型是正关联规则挖掘普遍应用的模型,而如何度量关联规则的不确定性则是正关联规则挖掘中的重要问题之一。在该模型中,用supp(X∪Y)和conf(X→Y)来度量关联规则X→Y的不确定性。然而,用这一度量标准可能会得到诸如X→Y,但X与Y不相关(或独立)的规则。可见,用conf(X→Y)来度量关联规则是不够的. 实际应用中,我们不仅要挖掘正关联规则,而且还要挖掘负关联规则。正关联规则即形如X→Y的式子,负关联规则即形如X→Y的式子,其中X,YI,X∩Y=,I为数据库D中的所有项的集合,首先看一个例子,若p(c)=0.6,p(t)=0.4,p(t∪c)=0.05,p(t∪c)=0.35,minconf=0.52,有p(t∪c)/p(t)=0.05/0.4=0.125minconf。因此,t→c为一有效规则。 相似文献
10.