共查询到20条相似文献,搜索用时 0 毫秒
1.
一种基于最大加权频繁项目集的数据库相似性判别算法 总被引:1,自引:0,他引:1
在引入最大加权频繁项目集之后,给出一种新的数据库相似性度量模型,并提出基于最大加权频繁项目集的数据库相似性度量算法.该算法可有效地改进基于最大频繁项目集的数据库相似性度量方法,提高数据库相似性度量准确性.在实际应用中,改进模型为分布多库环境下数据挖掘的数据准备提供有效的框架,因而具有重要的使用价值. 相似文献
2.
与中低分辨率相比,高分辨率遥感影像的信息比较丰富,在使用常规k-NN分类方法基于像元进行高分辨率遥感影像分类时会产生大量的“椒盐噪声”和地物类别错分。根据地理学第一定律,引入地统计模型,将地理权重加入到常规k-NN分类方法中,形成新的地理权重k-NN分类器(Geographically Weighted k-NN,GWk-NN)。该方法首先通过条件概率函数计算出训练样本数据的空间分布特征,然后通过地统计模型对空间分布特征进行拟合,为每种地物选择合适的权重模型,这样既保留了遥感影像中地物的光谱特征,又融入了地物的空间特征,在一定程度上减少甚至消除了“椒盐噪声”,提高了分类精度。GWk\|NN和常规k\|NN分类器分析对比表明:GWk-NN分类方法提高了高分辨率影像的分类精度。 相似文献
3.
随着工程测量和工业控制的发展,在多样的工程测量环境和工业控制环境中选择合适的测量和控制理论、方法和技术也将成为难题,推荐技术的引入可以提升工程测量的的自动化程度和工业控制的实时性。但是推荐系统中经典的相似性度量方法在数据稀疏的情况下处理能力较弱,影响了推荐的准确性。针对这一问题,将杰卡徳相似系数加以修正,并利用杰卡德相似系数能够衡量两个集合的相似度的特点,将修正后的杰卡德相似系数作为权重系数,对经典的相似性度量方法加以修正,得到新的相似性度量方法。选取5个测评指标,分别在基于用户和基于项目的协同过滤推荐算法中,对经典的相似性度量方法和改进的相似性度量方法进行测试。对比实验表明,改进的相似性度量方法表现优于传统的相似性度量方法,提升比例约为20%。 相似文献
4.
高维数据之间的相似性度景问题是高维空间数据挖掘中所面临的问题之一.为了有效解决高维效应给相似性度量带来的种种问题,首先分析传统相似性度量算法,得出其局限性.再通过对传统度最算法进行改进,提出新的Close函数,以弥补传统相似性度量算法应用在高维空间时的不足.提出Close函数后,将其与几种传统的相似性度量算法作比较,得出新算法在高维空间相似性度量方面的优越性.文中最后用Matlab对该函数做了定量分析,实验证明该函数在高维空间中能有效避免噪声和维灾效应的影响. 相似文献
5.
6.
为解决MCCNN网络立体匹配的训练数据集选择问题,研究一种基于相关性比较、余弦相似性和结构相似性的加权度量选择方法,通过实验确定三者的加权系数,使用三者的加权值衡量训练集与待匹配图像数据分布的互相似性、训练集本身的自相似性,以互相似性和自相似性加和值最高的对应数据集作为选择的训练集.通过InStereo2k图像和实拍图... 相似文献
7.
基于改进SIFT算法的图像匹配方法 总被引:10,自引:0,他引:10
研究图像匹配定位识别精度问题,针对同一图像两个不同视点的匹配,为提高不同分辨率不同尺度的图像匹配精度和效率问题,提出一种改进的基于尺度不变特征变换(SIFT)算法的图像匹配方法.由于算法具有良好的尺度、旋转、光照等不变特性而应用于图像匹配中,在分析SIFT特征向量生成过程的基础上,以准欧式距离代替欧氏距离作为特征描述符之间的相似性度量来提高SIFT特征匹配效率.实验结果表明,方法在保持图像匹配率和算法鲁棒性情况下,不仅缩短了匹配时间,还提高了图像匹配的精度,证明图像匹配的有效性. 相似文献
8.
在高速以太网中, 针对用户行为的特殊性及数据流五元组的特点, 提出了一种自适应相似性匹配算法(ASMA-HN)。该算法充分考虑了数据流五元组的随机性分布特点, 通过一种改进的XOR-SHIFT算法将数据流分类索引, 并提出了同类数据库(SD)及异类数据库(HD)的概念, 基于距离测度分别设计了加权相似性比较函数, 使得特征值能更精准地匹配到符合要求的数据文件, 提高了整体的匹配效率。通过对校园网实际流量的现场测试, 证明该算法具有较高的精准性及可适用性, 且匹配时间较低, 能很好地满足高速网络中相似性匹配业务的需求。 相似文献
9.
人体运动捕获技术的发展使得运动捕获数据不断积累,人体运动的检索技术成为运动数据管理和重用过程中的关键环节。由于逻辑相似的运动在数值上并不一定相似,使用欧式距离度量2个运动间的逻辑相似性难以取得理想的结果。为此,提出一种半监督的距离度量学习算法,利用带标记的运动和未标记运动进行训练以得到运动间的马氏距离度量,从而判断2个运动之间的逻辑相似性,实现运动检索。实验结果表明,与现有的大部分检索算法相比,该算法能够得到更高的查询精度,且没有任何人工干预,可应用于自动检索领域。 相似文献
10.
针对传统协同过滤推荐算法遇到冷启动情况效果不佳的问题,提出一种基于项目相似性度量方法(IPSS)的项目协同过滤推荐算法(ICF_IPSS),其核心是一种新的项目相似性度量方法,该方法由评分相似性和结构相似性两部分构成:评分相似性部分充分考虑两个项目评分之间的评分差、项目评分与评分中值之差,以及项目评分与其他评分平均值之差;结构相似性部分定义了共同评分项目占所有项目比重,并惩罚活跃用户的逆项目频率(ⅡF)系数。在Movie Lens和Jester数据集下测试算法准确率。在Movie Lens数据集下,当近邻数量为10时,ICF_IPSS的平均绝对偏差(MAE)和均方根误差(RMSE)分别比基于Jaccard系数的均方差异系数的项目协同过滤算法(ICF_JMSD)低3.06%和1.20%;当推荐项目数量为10时,ICF_IPSS的准确率和召回率分别比ICF_JMSD提升67.79%和67.86%。实验结果表明,基于IPSS的项目协同过滤算法在预测准确率和分类准确率方面均优于基于传统相似性度量的项目协同过滤算法,如ICF_JMSD等。 相似文献
11.
为了防范网络中存在的多种多样的安全威胁,由大量异构型安全设备所组成的统一管理平台得到了广泛的应用。然而如何有效地解决由这些安全设备集成所引发的各种冲突和故障,已成为网络管理的重点和难点。本文提出以距离度量和特征加权算法为基础,对网络中采集到的各种原始样本参数进行数据预处理,以便为故障诊断提供更加可靠、准确地输入参量。由于安全设备的故障特征具有很强的异构特性,所以首先对特征变量进行分类描述。将变量分为连续型、有序型、标称型、二分型四类23种。之后,对不同类型特征变量,提出Euclid、VDM算法、DVDM及IVDM算法来标称不同样本的距离。最后,综合运用知识规则和模糊理论对四种算法分别赋予不同的权重。通过实验及结果分析,显示加权后DVDM和IVDM 算法的故障分类准确度增长10%以上,说明该理论算法具有较高的可靠性和准确度。 相似文献
12.
为了提高从企业模型库中查询检索模型的效率,提出一种基于变迁图编辑距离的流程相似性算法。首先,给出了变迁图的概念及其生成方法;其次,提出边的长度概念,且删除和插入边的代价由该边的长度决定,基于此定义出图编辑操作及其代价,并用节点匹配算法计算最小图编辑距离;然后,给出两个过程模型的相似性概念和计算方法;最后,通过实验验证了算法的正确性且满足七条相似性性质,并验证了变迁图编辑距离满足四条距离性质。 相似文献
13.
在自学习超分辨算法中,高低分辨率图像块匹配是否准确是算法的关键。在高低分辨率图像块匹配过程中,考虑图像块纹理结构的重要性,提出了一种基于纹理约束的图像块相似性度量模型,应用该模型完成了高低分辨率图像块更为准确的匹配,使超分辨结果图像的细节更加丰富,进一步提高了图像质量。该算法仅使用了单幅低分辨率图像自身的相关先验信息,有效提升了图像的空间分辨率。实验结果表明,与双三次插值算法、自相似学习超分辨算法相比,本文提出的算法超分辨视觉效果更好,并且在客观评价指标中同样表现良好。 相似文献
14.
15.
数据集成中不一致性数据相似性比较的加权算法 总被引:1,自引:0,他引:1
Reducing inconsistency is the key problem to improve data quality during data integration. In this paper,we first present a weighted algorithm of similarity coefficient which is superior to traditional algorithms if the source data have multiple characteristic items,all of which have to be taken into account ,especially during the complex infor-mation integration. Secondly ,we apply it to the experiment of telecommunication customers integrating,the results ofdata clustering show it has high feasibility and precision performance. 相似文献
16.
数值型序列在很多应用中存在,如超市的POS销售记录和证券交易所的股票买卖数据等.在此类数据中查询与给定序列模式相似的子模式具有重要的现实意义.提出一种趋势融合的序列相似性查询算法NSS_QA,首先对所有序列进行单调区间的“融合”处理,然后根据各区间的长度比例和幅度比例产生序列模式的候选集,最后定义了一种新的相似性度量来... 相似文献
17.
18.
序列数据相似性查询技术研究综述 总被引:2,自引:0,他引:2
序列数据在文本、Web访问日志文件、生物数据库等应用中普遍存在,对其进行相似性查询是一种提取有用信息的重要手段.近年来,随着各种科学计算的发展和序列数据的大量产生,序列相似性查询已经成为数据分析领域一个研究热点.其涉及到的几个重要问题有面向各种应用领域的相似性度量及其相互之间的关系;随机序列数据中距离分布的统计信息及其对分析查询算法性能的作用;在大规模数据中,各种高效回答相似性查询的关键技术及各自的优缺点比较.总结了序列数据的分类和特点,给出了几种序列数据相似性度量和随机序列之间距离分布的统计信息,并进一步分析了这些度量之间的关系.接着给出了几种序列相似性查询的类型,以及序列相似性查询要解决的核心问题.在此基础上,针对各种序列相似性查询关键技术进行分类和评价.最后,讨论了关于序列数据相似性查询研究所面临的挑战,并归结了未来的研究方向. 相似文献
19.
针对传统学习矢量量化算法没有考虑属性的重要度差异的问题,提出一种加权学习矢量量化算法.该算法为每一维属性引入一个权重系数,用其表征相应属性在分类过程中的重要程度,并与权向量一同更新.利用输入样本和获胜神经元之间的修正距离的均值,控制权重系数更新的阈值及步长.距离均值确保了更新过程的稳定性,且无需进行权重系数的归一化操作.UCI机器学习数据库中6组数据的实验结果表明,该算法能够有效给出数据的本质属性,尤其是局部型权重系数.与传统学习矢量量化算法及其改进算法相比,识别率高、性能稳定、计算复杂度低. 相似文献
20.
XML类型的数据成为当前主流的数据形式,本文提出一种检测XML数据相似性的方法,即将XML文档转换成树结构的基础上,对树结构的节点加权,并结合树编辑距离算法。通过XML带权树各属性权值计算的相似度对数据进行粗略匹配与聚集,而在重新聚集的集合中使用树编辑距离算法更直接的进行相似性检测。由于XML数据集合范围的缩小,树编辑距离算法操作的次数减少,从而节省了一定的时间。 相似文献