期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

Approximate Matching of Run-Length Compressed Strings

M?kinen Ukkonen Navarro 《Algorithmica》2008,35(4):347-369

Abstract. We focus on the problem of approximate matching of strings that have been compressed using run-length encoding. Previous studies have concentrated on the problem of computing the longest common subsequence (LCS) between two strings of length m and n , compressed to m' and n' runs. We extend an existing algorithm for the LCS to the Levenshtein distance achieving O(m'n+n'm) complexity. Furthermore, we extend this algorithm to a weighted edit distance model, where the weights of the three basic edit operations can be chosen arbitrarily. This approach also gives an algorithm for approximate searching of a pattern of m letters (m' runs) in a text of n letters (n' runs) in O(mm'n') time. Then we propose improvements for a greedy algorithm for the LCS, and conjecture that the improved algorithm has O(m'n') expected case complexity. Experimental results are provided to support the conjecture. 相似文献

2.

Approximate Matching of Run-Length Compressed Strings

Mäkinen Ukkonen Navarro 《Algorithmica》2003,35(4):347-369

We focus on the problem of approximate matching of strings that have been compressed using run-length encoding. Previous studies have concentrated on the problem of computing the longest common subsequence (LCS) between two strings of length m and n , compressed to m' and n' runs. We extend an existing algorithm for the LCS to the Levenshtein distance achieving O(m'n+n'm) complexity. Furthermore, we extend this algorithm to a weighted edit distance model, where the weights of the three basic edit operations can be chosen arbitrarily. This approach also gives an algorithm for approximate searching of a pattern of m letters (m' runs) in a text of n letters (n' runs) in O(mm'n') time. Then we propose improvements for a greedy algorithm for the LCS, and conjecture that the improved algorithm has O(m'n') expected case complexity. Experimental results are provided to support the conjecture. 相似文献

3.

Compressed String Dictionary Search with Edit Distance One

Djamal Belazzougui Rossano Venturini 《Algorithmica》2016,74(3):1099-1122

相似文献

4.

基于基本操作序列的编辑距离顺序验证

张润梁牛之贤《计算机科学》2016,43(Z6):51-54

两字符串的编辑距离是从一个串转换到另一个串所需要的最少基本操作数。编辑距离广泛应用于字符串近似匹配、字符串相似连接等领域。动态规划法利用编辑距离矩阵来计算两个串的编辑距离,需要计算矩阵中的所有元素,时间效率低。改进的方法改变了矩阵中元素的计算次序,减少了需要比对的元素,但仍需要比对一半以上的元素,时间效率还有待提高。提出基于基本操作序列的编辑距离顺序验证方法。首先,分析了基本操作序列的可列性,给出了列举基本操作序列的方法。然后依次顺序验证基本操作数从小到大的基本操作序列直到某一序列通过验证,得到其编辑距离。在阈值为2的字符串近似搜索实验中发现,所提方法比动态规划类方法具有更高的效率。相似文献

5.

一种基于层次距离计算的聚类算法 总被引：6，自引：0，他引：6

彭京唐常杰程温泉石葆梅乔少杰《计算机学报》2007,30(5):786-795

针对广泛存在的层次编码型数据类型,提出了层次距离的新概念,证明了相关的数学性质,并在此基础上提出并实现了新的基于层次距离计算的聚类算法HDCA(Hierarchy Distance Computing based clustering Algorithm).新方法克服了传统聚类算法标称型计算的缺陷,提高了聚类精度.针对聚类算法的中心点问题,提出了相应的层次编码型数据的快速处理算法,并从理论上证明了算法的正确性.实验表明,对比朴素处理算法,HDCA的性能明显提高.新算法已经应用到警用流动人口分析当中,取得了良好效果. 相似文献

6.

基于局部变化性的改进编辑距离算法

《计算机工程》2015,(7)

相似文献

7.

Ed-Sjoin:一种优化的字符串相似连接算法 总被引：1，自引：0，他引：1

李璐王宏志李建中高宏《计算机研究与发展》2009,46(Z2)

相似连接(similarity join)在数据清洗、生物信息、模式识别等应用领域中有着广泛应用,其中基于编辑距离的字符串相似连接是一种重要的相似连接.尽管当前有一些基于编辑距离的字符串连接算法提出,然而,当前的算法存在着大量的多余计算,影响了算法的效率.为了高效计算基于编辑距离的字符串连接,提出了一种优化的算法Ed-sjoin,分别从优化筛选算法和基于前缀的重复消减策略两方面对算法进行优化,这些优化策略可以实现更加有效的剪枝,并且避免了部分重复计算,从而加速算法的执行.实验结果表明,提出的方法优于现有方法. 相似文献

8.

MED算法及其在网页搜索中的应用

下载免费PDF全文

叶福军《计算机工程》2010,36(2):36-38

针对传统方法不能很好地处理网页中简短域和用户查询之间的相关性排序问题,提出一种改进的编辑距离(MED)排序算法,在编码和计算过程中引入查询词分布的位置、顺序和距离等信息,将查询和简短域之间的相关性问题转化为编码字符串的相似性问题。仿真实验结果表明,与传统的相关性排序算法相比,该算法可以提高网页搜索中简短网页域的相关性排序性能。相似文献

9.

基于归一化编辑距离和谱聚类的轨迹模式学习方法 总被引：6，自引：0，他引：6

袁和金张艳宁周涛余红伟李秀秀《计算机辅助设计与图形学学报》2008,20(6):753-758

针对欧氏距离和Hausdorff距离等在描述目标运动轨迹差异性时度量不够准确的问题,提出一种基于归一化编辑距离和谱聚类的轨迹分布模式学习方法．首先对目标的运动轨迹进行矢量量化编码;然后采用归一化的编辑距离来度量轨迹编码序列之间的差异,得到归一化编辑距离矩阵;再通过该矩阵进行谱聚类来提取轨迹的分布模式;最后利用所提取的轨迹分布模式确定整条轨迹及其局部是否异常．通过仿真和真实场景的实验验证了该方法的有效性．相似文献

10.

基于编辑距离的XML文档结构聚类的改进算法

龚安刘华山《微计算机应用》2008,29(2):88-91

针对当前XML文档结构聚类算法的一些不足,指出XML文档树中节点的重复和嵌套影响聚类的质量和效率.利用重复剪枝和嵌套剪枝简化XML文档树的表示,然后根据化简后的结构计算两棵XML文档树中的编辑距离,在此基础上得出两棵树整体的结构相似度量,按照层次聚类方法得到聚类结果.实验证明该算法有比较高的查全率和查准率,有效降低了时间复杂性,具有改进效果. 相似文献

11.

New Algorithm for Computing Cube on Very Large Compressed Data Sets 总被引：2，自引：0，他引：2

Weili Wu Hong Gao Jianzhong Li 《Knowledge and Data Engineering, IEEE Transactions on》2006,18(12):1667-1680

Data compression is an effective technique to improve the performance of data warehouses. Since cube operation represents the core of online analytical processing in data warehouses, it is a major challenge to develop efficient algorithms for computing cube on compressed data warehouses. To our knowledge, very few cube computation techniques have been proposed for compressed data warehouses to date in the literature. This paper presents a novel algorithm to compute cubes on compressed data warehouses. The algorithm operates directly on compressed data sets without the need of first decompressing them. The algorithm is applicable to a large class of mapping complete data compression methods. The complexity of the algorithm is analyzed in detail. The analytical and experimental results show that the algorithm is more efficient than all other existing cube algorithms. In addition, a heuristic algorithm to generate an optimal plan for computing cube is also proposed 相似文献

12.

图编辑距离概述

徐周波张鵾宁黎华古天龙《计算机科学》2018,45(4):11-18

图编辑距离是图模式匹配技术中常用的方法之一。基于图编辑距离的匹配方法能够处理多种类型的图数据,因而受到了学术界的广泛关注。首先介绍了图编辑距离的相关概念;然后简述了基于启发式搜索技术的精确图编辑距离算法,重点分析了基于二分图匹配的近似图编辑距离算法;最后对现存的一些图编辑问题进行了总结,并对未来的发展趋势进行了展望。相似文献

13.

支持块编辑距离的索引结构 总被引：1，自引：0，他引：1

王斌郭庆李中博杨晓春《计算机研究与发展》2010,47(1):191-199

在近似字符串匹配中,传统的编辑距离不能很好地衡量诸如人名、地址等数据的相似关系,而块编辑距离可以很好地衡量两个字符串的相似性.如何有效地支持块编辑距离,进行近似字符串查询处理具有重要的意义.计算两个字符串的块编辑距离是一个NP完全问题,因此希望提供有效的方法可以增强过滤能力,并减少假通过率.设计了一种支持移动编辑距离的新颖的索引结构SHV-Trie,通过研究移动编辑距离的操作特性,使用字母出现的频率作为支持移动编辑距离操作的一个下界,并且提出相应的查询过滤算法,同时,针对索引SHV-Trie的空间开销过大的问题,提出一种优化字母排列的索引结构和一种压缩的索引结构及相关查询过滤算法.真实数据集上的实验结果与分析显示了所提出的索引结构具有良好的过滤能力,并通过减少效率假通过率提高查询的效率. 相似文献

14.

基于最小编辑距离的维语词语检错与纠错研究 总被引：2，自引：1，他引：2

玛依热·依布拉音米吉提·阿不里米提艾斯卡尔·艾木都拉《中文信息学报》2008,22(3):110-114

拼写错误的发现和候选词选取是文本分析中的一个重要的技术问题。本文结合维吾尔语的语音和词语结构特点,列出了文本中常见的拼写错误类型,详细分析了解决方法,利用最小编辑距离(minimum edit distance)算法实现了维吾尔语文本拼写错误分析中的查错和纠错功能,并以此为基础,结合维吾尔语构词规则,进一步提高了建议候选词的准确率和速度。该算法已被成功地应用到了维吾尔语文字自动校对和多文种文本检索等领域中。在以新疆高校学报为语料的测试中,词语查纠率达到 85%以上。相似文献

15.

A Scalable and Efficient Algorithm for Computing the City Block Distance Transform on Reconfigurable Meshes

Pan Y.; Trahan J. L.; Vaidyanathan R. 《Computer Journal》1997,40(7):435-440

相似文献

16.

A Run-Length Slice Line Drawing Algorithm without Division Operations 总被引：1，自引：0，他引：1

Khun Yee Fung Tina M. Nicholl A. K. Dewdney 《Computer Graphics Forum》1992,11(3):267-277

Of the two major approaches to line drawing, run-length slice algorithms are seldom used because of the division operation deemed necessary in these algorithms. The biggest advantage of these algorithms, the reduction of additions used, is considered outweighed by the division used. In this paper, a new run-length slice algorithm that does not require a division operation is presented. Furthermore, it uses the double-stepping paradigm in incremental line drawing algorithms to reduce the number of additions used by at least half. For sufficiently long lines, this algorithm uses at least 50% fewer arithmetic operations than Wu et al.'s bi-directional double-step incremental algorithm. But because of its high initialization cost, for short lines, it is less efficient. For a line with endpoints (0,0) and (δx, δy), the strategy is then to use the bi-directional Bresenham algorithm for very short lines (δx < 20), the bi-directional double-step algorithm for moderate long lines (20 ≤δx ≤ 110), and the new algorithmfor the longer lines (δx > 110). 相似文献

17.

编辑距离算法及其在英语易混词自动抽取中的应用

马立东《电脑学习》2013,3(1)

研究英语单词形态相似度的计算方法.采用可设置编辑距离上限参数的算法实现从指定词汇范围自动抽取近形词.筛选出的易混近形词经消重和分类后可以丰富英语词汇知识库的内容.易混词知识库在教材编写、词汇能力训练设计、词典编纂和真词错误拼写校正等领域具有应用价值. 相似文献

18.

Petri网的同步距离计算 总被引：2，自引：0，他引：2

张金泉倪丽娜蒋昌俊《计算机科学》2005,32(12):138-141

同步距离是刻画事件之间同步关系的一个重要的定量分析手段。本文提出了同步距离计算网SDCNet的概念模型并讨论了计算同步距离的几个结论,给出了S_元中初始标识的配置算法以及以此为基础计算同步距离的算法。分析表明该算法与可覆盖性树的生成算法具有相同的复杂性。相似文献

19.

基于编辑距离的远程数据库安全搜索协议

仲红 ;张守奇 ;张瑞 ;方兴 ;李江华《微机发展》2008,(9):134-137

远程数据库安全搜索作为安全多方计算的一项应用变得越来越重要,它被广泛地应用到电子商务领域中。给出了基于编辑距离的远程数据库安全搜索协议,回顾了编辑距离的定义及计算方法,利用安全多方计算的相关知识构建了一系列基础安全协议以实现双方安全计算编辑距离,并对这些协议的计算复杂度进行了分析。最后给出了基于编辑距离的远程数据库安全搜索协议和协议的代价,该协议可以用在基于DNA序列匹配的远程数据库安全搜索中。相似文献

20.

基于编辑距离的远程数据库安全搜索协议

仲红张守奇张瑞方兴李江华《计算机技术与发展》2008,18(9)

远程数据库安全搜索作为安全多方计算的一项应用变得越来越重要,它被广泛地应用到电子商务领域中.给出了基于编辑距离的远程数据库安全搜索协议,回顾了编辑距离的定义及计算方法,利用安全多方计算的相关知识构建了一系列基础安全协议以实现双方安全计算编辑距离,并对这些协议的计算复杂度进行了分析.最后给出了基于编辑距离的远程数据库安全搜索协议和协议的代价,该协议可以用在基于DNA序列匹配的远程数据库安全搜索中. 相似文献