首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 453 毫秒
1.
讨论了目前常用的相似度度量技术:属性计数技术和结构度量技术,通过字符串匹配算法对得到的标记字符串作比较,并根据比较结果给出它们之间匹配程度的数值表示,以此作为文件相似度的度量值.该值越大说明文件越相似,资料信息化过程中存在拷贝的可能性也越高.验证结果表明,该实验系统能检测到资料录入数据中大部分的相似内容.  相似文献   

2.
字符串相似度度量中LCS和GST算法比较   总被引:1,自引:0,他引:1  
于海英 《电子科技》2011,24(3):101-103,124
就字符串相似度度量算法的LCS和GST在概念、实现、效率方面进行比较分析,简要探讨了两种算法的应用领域.  相似文献   

3.
计算字符串相似度的矩阵算法   总被引:1,自引:0,他引:1  
李彬 《现代电子技术》2007,30(24):106-108,111
用2个字符串滑动比较时匹配的字符数和2字符串滑动比较的重叠率定义了相似度的衡量指标,在确定一个字符串比另一个字符串少的情况下,设计了一种算法,试验结果表明该算法实现了在字符串匹配矩阵中确定插入空格的位置使相似度指标达到最大值,并且算法的计算次数也明显地减少。该算法可以用于信息的模糊检索。  相似文献   

4.
黄霞 《电子学报》2014,42(2):288-291
提出一种基于领域本体潜在语义索引和奇异值分解的图像数据查询算法,将查询扩展向量映射到潜在语义空间,根据相似度计算方法计算查询向量与图像文档之间的相似度,并将相似度大于阀值的文档作为检索结果降序排列返回给用户.该算法能更有效地提高图像检索的查准率和查全率.  相似文献   

5.
研究基于编辑距离的top-k相似字符串查询处理方法,即对于给定的字符串集合S和查询串σ,返回S中前k个与σ编辑距离最小的字符串。首先提出了基于长度跳跃索引的2种自适应过滤策略来减少字符串之间编辑距离的计算次数;其次提出了查询字符串与不匹配字符串集合的编辑距离下界,以便在处理和σ无公共特征的字符串时,进一步减少编辑距离的计算次数;最后给出了基于上述过滤策略的高效top-k相似字符串查询算法,并在3个真实的数据集上进行了实验,实验结果验证了所提算法的高效性。  相似文献   

6.
从大规模图像数据库中快速、有效地检索出相关图像是目前一个重要又富有挑战性的研究课题,为提高图像检索效果,提出了一种基于字符串编辑距离的图像检索算法。受图像感知哈希算法的启发,该算法首先将图像大小归一化并压缩色彩空间,并把图像特征动态映射成字符串形式,然后采用编辑距离进行字符串相似度计算从而实现图像检索。该算法不仅考虑到图像中的颜色特征,而且将字符串编辑距离引入到图像检索中,利用字符串相似度评价图像的相似性,在提高检索率的同时又加快了检索速度。采用不同类型的图像进行实验,实验结果表明,该算法具有较高的检索效率。  相似文献   

7.
网络资源学习推荐算法是利用用户搜索提供的关键词和文档查询方式,来收集用户需求的学习资源集合及核心概念集合,根据概念间的关系分别对用户评价的学习资源集合语义相似度及核心概念间语义相似度进行计算,并以此相似度值来决定用户偏好的相似性,找到该偏好相似的最近邻居,以实现协同推荐学习资源。同时,应用学习对象概念来降低计算相似度的复杂性,并将此法用于计算语义网的学习资源推荐体系中,结果显示,此计算法能够改善资源推荐的效果,资源及新用户注册数量均显著增加。  相似文献   

8.
针对计算字符串相似度的RKR-GST算法,分析了与该算法相关的技术并给出算法的流程图,然后在Visual Studio 2008中对该算法进行了实现,详细描述了实现过程中涉及的类与数据结构图,最后对算法的复杂度及算法运行过程中一些参数的选取进行了讨论。RKR-GST算法在剽窃检测、DNA序列匹配等领域具有广阔的应用前景,该算法在.NET中的实现具有良好的可移植性与可扩展性,可以在多个应用领域中推广使用。  相似文献   

9.
通过字符串匹配算法来实现文本过滤,在深入分析了现有串匹配算法的基础上,根据网闸数据从外网过渡到内网的特点,对传统的字符串匹配算法Wu-Manber进行详细分析,设计并实现了一种适合中文字符集和网闸的模式匹配算法RWM,并对改进的算法进行了实验分析。实验表明,所设计的算法在运行时间和尝试次数方面优于其他算法,满足网闸对不良信息进行查询和过滤的要求,能够解决网闸的文本过滤问题。  相似文献   

10.
在设计盲打机考自动判卷系统时,需要一种有效的文本相似度判别算法。为此提出了一种基于局部最大相似设想的串匹配算法来解决此类问题,通过分别比较错误发生部位局部子字符串在插入片段、漏打片段或错打片段的的得分并选取失分最小者,实现了精确判定考生得分的目的。该算法无回溯,效率高,已应用于自动机考系统中。  相似文献   

11.
字符串相似连接操作具有广泛应用,因而将着重研究基于编辑距离的字符串相似连接。而现有的字符串相似连接算法大多为内存算法。实际应用中的数据集越来越大,有必要针对超大规模数据集研制字符串相似性连接外存算法。利用组合频率向量划分数据集,并提出了基于编辑距离的字符串相似性连接外存算法框架,证明了磁盘调度问题的难度并提出了不同的启发式磁盘调度方法。此外,还提出了基于该外存算法框架实现字符串相似性连接增量式计算的方法。实验结果表明,数据划分方法可以有效地过滤不相关的数据子集;磁盘调度算法能够有效减少磁盘IO次数;外存算法是高效的;增量式计算方法能够高效地处理数据更新。  相似文献   

12.
针对单一特征不能很好地表述图像的问题,提出了一种融合多特征的图像检索算法.首先,提取查询图像和图像库中样本图像的GIST(Generalized Search Tree)特征,用欧氏距离衡量图像间的GIST相似度值,根据查询图像的GIST特征在图像库中进行检索,将结果按相似度进行排序;然后,提取查询图像和返回结果中前k幅图像的尺度不变特征变换(SIFT)特征,使用BBF(Best Bin First)算法进行特征匹配;最后,通过特征点匹配点对数排序并返回检索结果.实验在改进的Corel1000数据集上进行,与传统的单特征图像检索算法对比,提出的图像检索算法不仅提高了检索准确率,而且获得了较好的检索效率.  相似文献   

13.
邰伟鹏  岳建华  邓育  陈业斌  秦锋 《电子学报》2016,44(6):1343-1348
空间数据集中的点普遍由空间信息及描述文本信息组成.空间近似关键字反远邻查询(Approximate String Reverse Furthest Neighbors Search,ASRFNS)问题是在一个空间数据集中搜索所有以给定查询点为最远邻,且满足文本相似度条件的目标.基于现有的空间反远邻查询算法以及近似关键字查询算法,我们提出了两个基本的解决算法:凸包最远单元交集(CHFCsJoin)算法和凸包最远单元近似字符串串行查询(CHFCASSS)算法;我们又设计了一种包含空间和关键字信息的外存索引结构Filter-Rtree,并给出了相应的凸包最远单元过滤R树(CHFilterRtree)高效算法.通过真实数据集的实验测试,验证这三种算法的有效性,并分析比较了其性能与效率.  相似文献   

14.
贺宁 《山西电子技术》2008,(1):71-72,87
提出了一种基于蚁群算法在数据库查询应用中的新方法及其仿真,蚁群算法就是对自然界中蚂蚁的寻食过程进行模拟而得出的一种模拟进化算法。与传统的算法相比,该算法的主要特点是正反馈和并行性,正反馈使得该算法能很快发现较好查询路径,并行性使得该算法易于实现并行查询计算,从而提高了查询的速度。最后,利用Excel对蚁群查询算法和传统查询算法进行了仿真并进行了比较。  相似文献   

15.
针对几种典型相似度算法在求解不完整时间序列相似度问题上准确率低、适应性差的问题,利用差分变换、量化处理、符号化处理、等价字符变换方法并借鉴最长公共子序列、贪婪字符串匹配算法优点,提出了一种适用于不完整时间序列的相似度求解算法。针对等长脉冲缺失时间序列,该算法的相似度结果经加权平均处理,准确率比典型算法提高了10%以上;而对于更具一般性的非等长脉冲缺失时间序列,相似度结果准确率也有明显提高。实验结果表明该算法对不完整时间序列具有较好的数据关联效果,在真实数据环境下具有较强的鲁棒性。  相似文献   

16.
杜德生  叶建平 《现代电子技术》2010,33(6):135-136,139
在传统的序惯相似度检测算法和自适应闽值的序惯相似度检测算法的基础上,运用粗匹配中取三点最小值分别作为精匹配中的初始门限值,然后进行三次精匹配,比较三次匹配结果取最小值,转变为最终的图像匹配点,实现一种新的自适应阈值的序惯相似度检测算法。实验结果表明,这种改进自适应阈值的序惯相似度检测算法,在略微降低算法的执行速度的同时,能够很好地保持自适应阈值的序惯相似度检测算法的图像匹配准确性,具有很好的实时性。  相似文献   

17.
网页排序算法对根据用户查询词搜索到的大量页面进行排序,从而返回给用户,因此排序算法对搜索引擎的好坏起着关键作用。Nutch搜索引擎只实现了基本的综合排序模型,针对Nutch默认排序算法的不足,在Page Rank算法中加入时间因子、链接权重因子,并结合How Net来计算网页的语义相似度,将改进后的Page Rank算法和基于语义的主题相关度算法应用在Nutch排序算法中。实验结果表明:改进的排序算法使得Nutch的搜索结果排序准确率和首页命中率都有了明显提升。  相似文献   

18.
一种基于BM算法的改进模式匹配算法研究   总被引:1,自引:0,他引:1  
基于模式匹配的检测方法是目前入侵检测系统的一种重要方法,因此作为模式匹配方法核心的字符串匹配算法直接影响入侵检测系统的性能和效率.在研究现有算法的基础上提出一种改进的模式匹配算法--New-Search算法.该算法以BM算法为基础,通过预处理阶段处理,首末字符部分定位的思想,增加字符跳转距离,比较稳定地减少匹配过程中字符比较的次数,提高了匹配的速度和效率.  相似文献   

19.
针对传统的协同过滤推荐系统推荐精度低的问题,从用户相似度和用户信任度两个角度出发,提出了一种融合云模型和信任的推荐算法。采用云模型的相似度方法计算用户间的相似度,再采用信任推导来计算用户间的信任值,在此基础之上根据用户相似度和信任度两个因素分别确定邻居用户,得到预测评分。再将二者的预测评分结合的混合值作为最终的预测评分,从而产生推荐。实验结果表明,该算法与基于信任关系的推荐算法相比有更好的推荐效果。  相似文献   

20.
依据车辆轨迹相似度在时间和空间维度上的约束,引入LCSS算法,遵循最长公共子序列的原理,抽象出轨迹中的卡口号序列,提出一种两条车辆轨迹相似度的计算方法,并结合Spark并行计算、Hive数据仓库存储等相关技术,搭建数据分析平台,实现该算法。实验表明,该算法满足实际车辆轨迹在时间和空间上的相似性,数据分析计算在性能上可以满足前台业务的检索。该算法和轨迹相似度分析业务,可作为治安卡口应用系统中关联车辆分析、团伙作案车辆分析等功能的后台支撑业务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号