首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 281 毫秒
1.
研究基于编辑距离的top-k相似字符串查询处理方法,即对于给定的字符串集合S和查询串σ,返回S中前k个与σ编辑距离最小的字符串。首先提出了基于长度跳跃索引的2种自适应过滤策略来减少字符串之间编辑距离的计算次数;其次提出了查询字符串与不匹配字符串集合的编辑距离下界,以便在处理和σ无公共特征的字符串时,进一步减少编辑距离的计算次数;最后给出了基于上述过滤策略的高效top-k相似字符串查询算法,并在3个真实的数据集上进行了实验,实验结果验证了所提算法的高效性。  相似文献   

2.
为解决中文字符串匹配精度较低的问题,提出了一种基于编辑距离和相似度改进的汉字字符串近似匹配算法,针对汉字字符串特点,使用汉字拼音和五笔编码计算;通过改进动态规划算法,能够有效提高编辑距离的计算准确度以及执行效率;再引入考虑交换问题的归一化算法,以语义编辑距离与长句长度的比值作为归一化结果,以此来提高近似匹配算法的准确度。实验结果表明,改进后算法计算的相似度质量要优于改进前的算法结果,且对提高算法效率和查全率、查准率和时间性能等指标均有明显改善,证明该算法的可行性和有效性。  相似文献   

3.
从大规模图像数据库中快速、有效地检索出相关图像是目前一个重要又富有挑战性的研究课题,为提高图像检索效果,提出了一种基于字符串编辑距离的图像检索算法。受图像感知哈希算法的启发,该算法首先将图像大小归一化并压缩色彩空间,并把图像特征动态映射成字符串形式,然后采用编辑距离进行字符串相似度计算从而实现图像检索。该算法不仅考虑到图像中的颜色特征,而且将字符串编辑距离引入到图像检索中,利用字符串相似度评价图像的相似性,在提高检索率的同时又加快了检索速度。采用不同类型的图像进行实验,实验结果表明,该算法具有较高的检索效率。  相似文献   

4.
李建敦  彭俊杰  张武 《电子学报》2012,40(11):2247-2254
 在云存储中,如何有效地调度用户请求到目标磁盘以实现绿色节能存储是一个热点问题.鉴于云存储对节能调度算法提出的新要求,如请求响应时间敏感与对动态优化的限制等,本文提出了一种基于布局的虚拟磁盘节能调度方法.该方法将磁盘阵列动态划分为工作区与就绪区,以工作区为主向用户分发资源,并以未连接虚拟机的虚拟磁盘为单位,根据实时负载情况对虚拟磁盘布局进行动态优化.实验结果表明,这种方法不仅能够降低磁盘阵列的能耗,而且能够有效地缓解响应时间延长的问题,还能够使虚拟磁盘布局达到更高的负载均衡水平.  相似文献   

5.
谱聚类算法通常是采用高斯核作为相似性度量,并利用所有可用的特征来构建具有欧氏距离的相似度矩阵,数据集复杂度会影响其谱聚类性能,因此该文提出一种基于公理化模糊子集(AFS)的改进谱聚类算法。首先结合AFS算法,利用识别特征来衡量更合适的数据成对相似性,生成更强大的亲合矩阵;再有效地利用Nyström采样算法,计算采样点间以及采样点和剩余点间的相似度矩阵去降低计算的复杂度;最后通过在不同数据集以及图像分割上进行实验,证明了提出算法的有效性。  相似文献   

6.
随着计算机网络技术的发展,检索成为互联网中一项重要的技术。字符串搜索系统允许用户提供一段字符串作为查询条件,系统将查询条件中提取的字符串与数据库中所有的数据逐一进行比较,计算它们之间的相似度,并根据相似度值的高低排序,返回相似度值最高的字符串。根据字符串相似度度量算法的最长公共子串LCS算法和编辑距离算法的基本原理,将两种算法进行实现,并在特定的简谱字符比较应用中进行实例分析,评价两种算法的应用特点。  相似文献   

7.
电力系统中的异常数据会极大降低电力系统运行状态估计的准确性,提出一种改进FCM聚类算法应用于电力异常数据检测。基于距离测度公理化定义给出一种新型距离测度计算公式,并根据新型距离测度建立相似性矩阵提出一种改进FCM算法;结合萤火虫算法在全局寻优方面的优势,利用萤火虫算法优化改进FCM算法的初始化聚类中心。通过加噪人工数据集实验验证了该算法与其他方法相比,类别划分更清晰、噪声鲁棒性更强,并依据3σ原理利用该算法对某电厂进行电力异常数据检测,实验结果表明,文中算法能够准确检测出电力异常数据。  相似文献   

8.
一种高效的累进式空间连接查询处理算法   总被引:1,自引:0,他引:1       下载免费PDF全文
 累进式空间连接查询广泛应用于空间数据集成、在线空间聚集查询系统中.本文提出一种高效的累进式空间连接查询处理算法,在现有累进式等值连接查询处理框架之上增加空间连接处理策略,使之适于处理空间连接查询;提出一种基于驻留度的动态同步替换策略处理内存溢出,提高了驻留内存空间对象的利用率;还提出了一种基于BEA的不完全连接查询处理算法有效减少磁盘连接计算冗余的I/O和CPU计算代价.实验表明,所提出的算法明显优于现有累进式空间连接查询处理算法.  相似文献   

9.
针对磁盘数据集中正负样本数目严重不平衡导致基于机器学习的分类算法易出现故障预测准确率低的问题,本文提出一种基于自适应加权Bagging-GBDT算法的磁盘故障预测模型.首先,提出基于聚类的分层欠采样方法对健康磁盘样本进行多次抽样,解决随机欠采样方法易丢弃潜在有用样本的问题;其次,将每次采样后样本与全部故障磁盘样本组合得到多个样本子集,通过训练这些子集建立多个预测精度较高的GBDT子分类模型;最后,根据待测点邻域样本类别自适应确定各子模型权重,据此通过加权硬投票集成最终的磁盘故障预测模型.在8组KEEL不平衡数据集上实验结果表明,与现有典型不平衡学习算法相比,少数类的召回率平均提升了9.46%;同时在磁盘公开数据集和某调度系统磁盘数据上对比验证了该方法在故障预测率上的先进性.  相似文献   

10.
由Jeh和Widom提出的SimRank算法是一种普适"结构相似度"计算模型。由于SimRank算法采用迭代方式计算图节点间相似性,因此时间复杂度和空间复杂度都非常高。随着数据量的激增,单机运算能力不能满足大规模数据的计算要求。本文提出了基于MapReduce计算模型的分布式SimRank算法,利用该算法对RDF图进行相似度度量,然后利用分布式的AP聚类算法对图节点进行聚类分析。实验结果表明,该方法能够高效的完成图节点的相似度度量,实现图的有效聚类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号