共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
项武 《微电子学与计算机》2010,27(7)
研究协同过滤推荐系统处理大规模稀疏评价数据的精度问题,针对目前余弦相似性处理极稀疏的用户评价矩阵不能获取满意推荐质量,且处理大规模推荐数据时存在性能缺陷的情况,提出基于评分区间相似性的协同过滤推荐算法.将用户评价的数值范围进行定性划分,以项目在各评价区间上的得分建模项目质量,以用户在各评价区间内的评分建模用户评分取向.使用余弦相似性度量方法衡量用户和项目间的相似程度,进而确定最近邻居.此方法的实现过程降低了稀疏性对最近邻发现的影响,且算法具有快速处理大规模评价数据的能力.使用标准的MovieLens数据集,测试提出的推荐算法,实验结果表明,本算法相比传统的最近邻推荐算法具有更好的推荐精度. 相似文献
3.
由Jeh和Widom提出的SimRank算法是一种普适"结构相似度"计算模型。由于SimRank算法采用迭代方式计算图节点间相似性,因此时间复杂度和空间复杂度都非常高。随着数据量的激增,单机运算能力不能满足大规模数据的计算要求。本文提出了基于MapReduce计算模型的分布式SimRank算法,利用该算法对RDF图进行相似度度量,然后利用分布式的AP聚类算法对图节点进行聚类分析。实验结果表明,该方法能够高效的完成图节点的相似度度量,实现图的有效聚类。 相似文献
4.
提出一种基于子空间特征向量的三维点云相似性分析算法。首先,获取两个物体的三维点云数据,并进行位置标准化。其次,利用最小子空间分割算法将两个三维点云分别分割成若干子空间。随后,计算子空间的质心到其拟合曲面的距离和夹角,并基于上述距离和夹角构成的向量空间,提取子空间特征向量。最后,通过特征向量间的相似度计算来评价两个三维点云的相似性。由于该方法将描述三维形体特征的子空间特征向量作为相似度度量的依据,所以具有数据量小、精度高的特点。实验表明,该算法能够定量地分析两个三维物体的相似性。 相似文献
5.
6.
谱聚类算法通常是采用高斯核作为相似性度量,并利用所有可用的特征来构建具有欧氏距离的相似度矩阵,数据集复杂度会影响其谱聚类性能,因此该文提出一种基于公理化模糊子集(AFS)的改进谱聚类算法。首先结合AFS算法,利用识别特征来衡量更合适的数据成对相似性,生成更强大的亲合矩阵;再有效地利用Nystr?m采样算法,计算采样点间以及采样点和剩余点间的相似度矩阵去降低计算的复杂度;最后通过在不同数据集以及图像分割上进行实验,证明了提出算法的有效性。 相似文献
7.
聚类分析是基因表达数据分析研究的主要技术之一,其算法的基本出发点在于根据对象间相似度将对象划分为不同的类,选择适当的相似性度量准则是获得有效聚类结果的关键。采用预处理过的基因数据集在不同相似性度量准则下进行的不同聚类算法的聚类分析,并得到聚类结果评价。其中算法本身的缺陷及距离相似性度量的局限性都是影响结果评价的因素,为了获得更有效的聚类结果,改进相关聚类算法并提出了一种比例相似性度量准则。 相似文献
8.
9.
针对基于提取雷达参数特征的分选方法中存在的特征提取困难、受噪声影响大以及对波形变化敏感等问题,依据相似性度量理论,文中提出了一种基于波形相似度测量的雷达辐射源分选方法。在完成对已有相似性度量算法研究的基础上,采用将夹角余弦算法、平均绝对差算法、动态滑动窗口算法相结合的方法,分别从雷达波形的整体和局部测量波形的相似度,实现雷达辐射源信号的配对分选。仿真结果表明,该方法能够克服传统分选方法的缺陷,相比基于信号互相关的分选算法,有效提高辐射源信号分选的准确率,对先验知识的依赖性不强,具有一定的抗噪能力。 相似文献
10.
可变相似性度量的近邻传播聚类 总被引:10,自引:0,他引:10
近邻传播(AP)聚类算法面临的一个问题是不适用于多重尺度及任意空间形状的数据聚类处理。该文从数据分布特性的表征出发,提出了一种改进的近邻传播聚类算法AP-VSM (Affinity Propagation based on Variable-Similarity Measure)。首先,综合数据的全局与局部分布特性,设计了一种数据可变相似性度量计算方法,该度量可以有效地反映数据实际聚类的分布特性;然后在传统AP算法框架基础上,构造出基于可变相似性度量的近邻传播聚类算法,从而拓展了传统AP算法的数据处理能力。仿真实验验证了新方法性能优于传统AP算法。 相似文献
11.
随着语义网的快速发展,RDF数据呈现出海量的增长特征,单机的RDF数据管理系统的可扩展性成为RDF数据发展的瓶颈,分布式的存储是解决这一难题的有效方法。而在数据的分布式存储中,数据分割是其中一个关键问题。文中根据RDF数据可以用有向图来描述特性,利用P-Rank基于结构的节点相似性度量方式计算图结点间的相似度,使用AP聚类算法对度量结果进行聚类,实现RDF数据的有效分割。实验结果表明,该方法能够有效地完成RDF数据的分割,使得类间相似度较小,而类内相似度较大。 相似文献
12.
针对影像匹配中存在误匹配点问题,提出了一种结构相似度(SSIM)理论的影像误匹配剔除算法,从亮度、对比度、结构三个方面建模得到一个相似性度量作为影像误匹配点剔除准则。该算法首先对匹配点邻域窗口计算其结构相似度,剔除结构相似度小于阈值的匹配点,然后对利用结构相似度理论难于剔除的误匹配点,再根据匹配点在影像空间几何分布特征来进一步进行剔除。通过与现有的基于RANSAC影像误匹配点剔除算法和基于灰度相关影像误匹配点剔除算法进行比较实验,结果表明本文算法能取得较好的误匹配点剔除效果,其综合性能优于其它两种误匹配点剔除算法,且时效性也较RANSAC算法好。 相似文献
13.
随着磁场模拟技术的发展,多种磁源能够对目标磁场进行精细化的模拟,传统的磁场判定方法难以对其相似情况进行度量.针对此问题,提出了一种基于离散Fréchet距离的磁场相似性度量特征值.根据磁场曲线的特点,首先改进了Fréchet方法中离散点间的距离评价指标,并提出了能够度量横坐标相似情况且消除目标速度不同的影响的参数,然后得到磁场相似性度量特征值,最后通过实例验证了其可行性.相对于传统方法,该特征值能够对更加相近的磁场曲线的相似情况进行评价. 相似文献
14.
基于三元卷积神经网络的行人再辨识算法多数采用欧式距离度量行人之间的相似度,并配合铰链(hinge)损失函数进行卷积神经网络的训练。然而,这种作法存在两个不足:欧式距离作为行人相似度,鉴别力不够强;铰链损失函数的间隔(Margin)参数设定依赖于人工预先设定且在训练过程中无法自适应调整。为此,针对上述两个不足进行改进,该文提出一种基于新型三元卷积神经网络的行人再辨识算法,以提高行人再辨识的准确率。首先,提出一种归一化混合度量函数取代传统的度量方法进行行人相似度计算,提高了行人相似度度量的鉴别力;其次,提出采用Log-logistic函数代替铰链函数,无需人工设定间隔参数,改进了特征与度量函数的联合优化效果。实验结果表明,所提出的算法在Auto Detected CUHK03 和VIPeR两个数据库上的准确率均获得显著的提升,验证了所提出算法的优越性。 相似文献
15.
自推荐系统被提出以来,各类算法层出不穷,各有利弊.数据稀疏性和冷启动问题是大部分推荐算法存在的缺点,将各类推荐算法混合,扬长避短,能很好的解决这些问题,传统的混合算法是将几种方法进行简单的线性组合.本文将物品属性权重引入相似性计算,再将改进的余弦相似性与之结合,生成一种动态的计算物品相似度的算法,将基于物品的协同过滤和基于内容的推荐的算法进行结合.实验数据表明该算法提高了推荐准确性的同时,还有效缓解了数据稀疏性和冷启动问题. 相似文献
16.
针对模糊C均值(FCM)聚类算法在数据集下聚类效果差的情况,以及基于欧氏距离的相似性度量只考虑数据点之间的局部一致性问题,提出了基于Jeffery散度相似性度量加权FCM聚类算法(JW-FCM).引入源于Jeffery散度的相似性度量,首先,对于FCM算法进行特征加权,对数据的不同特征值赋予适当的权重,再将Jeffer... 相似文献
17.
针对相似度表达的困难性以及极化SAR图像中固有的相干斑噪声问题,该文提出了一种基于张量积(TPG)扩散的非监督极化SAR图像地物分类算法。张量积扩散一般用于光学图像的分割或检索,目前研究表明,其已可用于极化SAR(PolSAR)图像地物分类。基于张量积扩散可以稳健地度量数据点之间的测地线距离,因此能够更好地挖掘数据点之间内在的相似度信息。首先,将极化SAR图像进行分割,生成许多超像素;其次,基于超像素提取7种特征并生成一个特征向量,进而利用高斯核构建相似度矩阵;再次,基于已构建的相似度矩阵,利用张量积扩散沿着数据点的内在流形结构进行相似度的传播,实现全局的相似性度量,从而获得一个具有更强判别能力的相似度矩阵;最后,基于此相似度矩阵进行谱聚类以得到地物分类结果。该文在仿真和实测极化SAR图像上均进行了大量实验,并与4种经典算法进行对比,结果表明该方法可以有效地结合空间邻域相似度信息并取得更高的分类精度。 相似文献
18.
一种基于EMD的文档语义相似性度量 总被引:1,自引:0,他引:1
针对基于EMD(Earth Mover's Distance)的文档语义相似性算法不满足度量公理因而难以在信息检索与数据挖掘中推广应用的问题,该文提出了一种新的基于EMD的文档语义相似性度量--Mdss EMD(Metric fordocument semantic similarity based EMD).首先在分析EMD及现有改进方法缺陷的基础上,给出了文档宽度、虚拟项的概念;随后通过增加虚拟项来对齐文档矢量的总权值,使所有度量公理得到满足;最后,为提高该度量的适应能力及处理速度,还实现了虚拟项相似距离的弹性设计并对EMD算法进行了简化.该方法把EMD扩展到度量空间中来,很大程度上提高了EMD的索引能力与精度,初步实验表明,Mdss EMD的整体性能优于原EMD及现有其它类似方法. 相似文献
19.
20.
符号化时间序列聚类是聚类研究中的热点之一,其中关键问题是时间序列符号化相似度问题.本文针对传统的基于欧式距离度量存在的缺陷,以LCS度量为基础,提出了ELCS相似性度量,克服了LCS度量需要依赖线性函数选取的不足.在两类数据集上进行的实验表明,同其他常用度量的比较,该度量有着更好的聚类效果. 相似文献