共查询到20条相似文献,搜索用时 453 毫秒
1.
讨论了目前常用的相似度度量技术:属性计数技术和结构度量技术,通过字符串匹配算法对得到的标记字符串作比较,并根据比较结果给出它们之间匹配程度的数值表示,以此作为文件相似度的度量值.该值越大说明文件越相似,资料信息化过程中存在拷贝的可能性也越高.验证结果表明,该实验系统能检测到资料录入数据中大部分的相似内容. 相似文献
2.
3.
计算字符串相似度的矩阵算法 总被引:1,自引:0,他引:1
用2个字符串滑动比较时匹配的字符数和2字符串滑动比较的重叠率定义了相似度的衡量指标,在确定一个字符串比另一个字符串少的情况下,设计了一种算法,试验结果表明该算法实现了在字符串匹配矩阵中确定插入空格的位置使相似度指标达到最大值,并且算法的计算次数也明显地减少。该算法可以用于信息的模糊检索。 相似文献
4.
提出一种基于领域本体潜在语义索引和奇异值分解的图像数据查询算法,将查询扩展向量映射到潜在语义空间,根据相似度计算方法计算查询向量与图像文档之间的相似度,并将相似度大于阀值的文档作为检索结果降序排列返回给用户.该算法能更有效地提高图像检索的查准率和查全率. 相似文献
5.
6.
7.
8.
针对计算字符串相似度的RKR-GST算法,分析了与该算法相关的技术并给出算法的流程图,然后在Visual Studio 2008中对该算法进行了实现,详细描述了实现过程中涉及的类与数据结构图,最后对算法的复杂度及算法运行过程中一些参数的选取进行了讨论。RKR-GST算法在剽窃检测、DNA序列匹配等领域具有广阔的应用前景,该算法在.NET中的实现具有良好的可移植性与可扩展性,可以在多个应用领域中推广使用。 相似文献
9.
通过字符串匹配算法来实现文本过滤,在深入分析了现有串匹配算法的基础上,根据网闸数据从外网过渡到内网的特点,对传统的字符串匹配算法Wu-Manber进行详细分析,设计并实现了一种适合中文字符集和网闸的模式匹配算法RWM,并对改进的算法进行了实验分析。实验表明,所设计的算法在运行时间和尝试次数方面优于其他算法,满足网闸对不良信息进行查询和过滤的要求,能够解决网闸的文本过滤问题。 相似文献
10.
在设计盲打机考自动判卷系统时,需要一种有效的文本相似度判别算法。为此提出了一种基于局部最大相似设想的串匹配算法来解决此类问题,通过分别比较错误发生部位局部子字符串在插入片段、漏打片段或错打片段的的得分并选取失分最小者,实现了精确判定考生得分的目的。该算法无回溯,效率高,已应用于自动机考系统中。 相似文献
11.
字符串相似连接操作具有广泛应用,因而将着重研究基于编辑距离的字符串相似连接。而现有的字符串相似连接算法大多为内存算法。实际应用中的数据集越来越大,有必要针对超大规模数据集研制字符串相似性连接外存算法。利用组合频率向量划分数据集,并提出了基于编辑距离的字符串相似性连接外存算法框架,证明了磁盘调度问题的难度并提出了不同的启发式磁盘调度方法。此外,还提出了基于该外存算法框架实现字符串相似性连接增量式计算的方法。实验结果表明,数据划分方法可以有效地过滤不相关的数据子集;磁盘调度算法能够有效减少磁盘IO次数;外存算法是高效的;增量式计算方法能够高效地处理数据更新。 相似文献
12.
针对单一特征不能很好地表述图像的问题,提出了一种融合多特征的图像检索算法.首先,提取查询图像和图像库中样本图像的GIST(Generalized Search Tree)特征,用欧氏距离衡量图像间的GIST相似度值,根据查询图像的GIST特征在图像库中进行检索,将结果按相似度进行排序;然后,提取查询图像和返回结果中前k幅图像的尺度不变特征变换(SIFT)特征,使用BBF(Best Bin First)算法进行特征匹配;最后,通过特征点匹配点对数排序并返回检索结果.实验在改进的Corel1000数据集上进行,与传统的单特征图像检索算法对比,提出的图像检索算法不仅提高了检索准确率,而且获得了较好的检索效率. 相似文献
13.
空间数据集中的点普遍由空间信息及描述文本信息组成.空间近似关键字反远邻查询(Approximate String Reverse Furthest Neighbors Search,ASRFNS)问题是在一个空间数据集中搜索所有以给定查询点为最远邻,且满足文本相似度条件的目标.基于现有的空间反远邻查询算法以及近似关键字查询算法,我们提出了两个基本的解决算法:凸包最远单元交集(CHFCsJoin)算法和凸包最远单元近似字符串串行查询(CHFCASSS)算法;我们又设计了一种包含空间和关键字信息的外存索引结构Filter-Rtree,并给出了相应的凸包最远单元过滤R树(CHFilterRtree)高效算法.通过真实数据集的实验测试,验证这三种算法的有效性,并分析比较了其性能与效率. 相似文献
14.
提出了一种基于蚁群算法在数据库查询应用中的新方法及其仿真,蚁群算法就是对自然界中蚂蚁的寻食过程进行模拟而得出的一种模拟进化算法。与传统的算法相比,该算法的主要特点是正反馈和并行性,正反馈使得该算法能很快发现较好查询路径,并行性使得该算法易于实现并行查询计算,从而提高了查询的速度。最后,利用Excel对蚁群查询算法和传统查询算法进行了仿真并进行了比较。 相似文献
15.
16.
在传统的序惯相似度检测算法和自适应闽值的序惯相似度检测算法的基础上,运用粗匹配中取三点最小值分别作为精匹配中的初始门限值,然后进行三次精匹配,比较三次匹配结果取最小值,转变为最终的图像匹配点,实现一种新的自适应阈值的序惯相似度检测算法。实验结果表明,这种改进自适应阈值的序惯相似度检测算法,在略微降低算法的执行速度的同时,能够很好地保持自适应阈值的序惯相似度检测算法的图像匹配准确性,具有很好的实时性。 相似文献
17.
18.
19.