共查询到20条相似文献,搜索用时 62 毫秒
1.
汉字/字符串编辑距离和编辑路径的有效求解技术 总被引:2,自引:0,他引:2
邹旭楷 《计算机研究与发展》1996,33(8):574-580
本文提出了一种有效的编辑距离和编辑路径求解技术,该技术不但适合于单字符字符串而且也适合于双字节汉字串的编辑距离和编辑路径的计算。它首先通过一有效的字符串相似匹配算法计算出串编辑距离,而后通过简单的二进制字位运算正确计算出串(最短)编辑路径。文章也给出了本技术的完整实现算法并分析了算法的复杂性。 相似文献
2.
3.
4.
时间序列的相似性搜索是时间序列知识发现的重要方面。该文提出了一种新的基于距离度量的时间序列相似性搜索算法。该算法采用分段线性表示,同时使用改进的模式距离来度量序列间的距离。 相似文献
5.
广义编辑距离的计算是一个NP-完全问题,在充分考虑了文档抄袭行为的特点之后提出一种基于广义编辑距离的单向的低计算复杂性的文档距离度量方法。首先,计算第一文档的各段落在第二文档全文中的近似串匹配距离之和,同时确定各段落在第二文档中的近似匹配子串(即原象串),然后根据这些原象串得到回退数和前跳数,最后将三者求和作为文档距离。该文档距离是一种广义编辑距离的近似值,能够在O(n2)时间内计算,并能充分反映抄袭方向。针对人工文档和实际文档的两组实验表明该距离具有较低的漏检率、误检率。 相似文献
6.
支持块编辑距离的索引结构 总被引:1,自引:0,他引:1
在近似字符串匹配中,传统的编辑距离不能很好地衡量诸如人名、地址等数据的相似关系,而块编辑距离可以很好地衡量两个字符串的相似性.如何有效地支持块编辑距离,进行近似字符串查询处理具有重要的意义.计算两个字符串的块编辑距离是一个NP完全问题,因此希望提供有效的方法可以增强过滤能力,并减少假通过率.设计了一种支持移动编辑距离的新颖的索引结构SHV-Trie,通过研究移动编辑距离的操作特性,使用字母出现的频率作为支持移动编辑距离操作的一个下界,并且提出相应的查询过滤算法,同时,针对索引SHV-Trie的空间开销过大的问题,提出一种优化字母排列的索引结构和一种压缩的索引结构及相关查询过滤算法.真实数据集上的实验结果与分析显示了所提出的索引结构具有良好的过滤能力,并通过减少效率假通过率提高查询的效率. 相似文献
7.
在工作流的发现和聚类等应用中,需要对两个工作流模型的距离进行度量。因此,提出一种计算两个不同结构化工作流的距离定量度量方法。首先介绍了结构化工作流,并将每一个结构化工作流转换为流程结构树;然后基于两个结构树之间的树编辑距离来计算工作流之间的距离及相应相似度。该距离度量方法满足距离度量的3个属性,即同实体不可区分性、对称性和三角不等式性质。这些属性使得该距离度量方法可以在工作流模型管理活动中作为定量分析工具。实验结果表明,基于树编辑距离的工作流度量方法是可行的。同时,与基于邻接矩阵的距离度量方法相比,该方法考虑了不同结构之间的语义距离,有效验证了此方法的合理性。 相似文献
8.
对时间序列的相似性搜索在很多新的数据库应用中的地位变得越来越重要.使用小波变换方法缩减维度是解决高维时间序列查询的一个有效方法.给出小波变换在时间序列相似性查找中对距离上下界的一个严格估计,同时说明传统的算法只是下界的一部分.根据给出的小波变换的下界,相对于传统的算法,可以排除更多的不相似序列.根据给出的上界,可以直接判断出两条序列是否相似,进一步减少需要验证的原始序列的个数.实验结果表明,相对于传统的算法,提出的上下界可以大幅度提高过滤效果,减少查询时间. 相似文献
9.
一种有效的编辑距离和编辑路径求解技术 总被引:1,自引:0,他引:1
邹旭楷 《小型微型计算机系统》1996,17(7):72-76
给定字符串T.P,将T转换成P所需的插入,删除,替代序列称为T到P的编辑路径,其最短编辑路径所需的插入,删除替代总数称为T到P的编辑距离,本文提出一种有效的编辑距离和编辑路径求解技术,该技术首先通过一有效的字符串相似匹配算法计算出编辑距离,而后仅通过简单的二进制字位运算正确计算出编辑路径。 相似文献
10.
晁浩 《计算机工程与应用》2015,51(6):208-211
解码时声学特性最优的路径蕴含了揭示当前路径是否正确的重要参考信息,为此提出了一种随机段模型系统的解码优化方法。训练能够准确地衡量当前路径与声学最优路径相似性程度的上下文相关音素串编辑距离模型,在N-Best重打分的过程中将音素串编辑距离加入到路径总得分中。在“863-test”测试集上进行的连续语音识别实验显示汉语字的相对错误率下降了8.1%。实验结果表明了将音素串编辑距离应用到随机段模型的可行性。 相似文献
11.
针对传统方法不能很好地处理网页中简短域和用户查询之间的相关性排序问题,提出一种改进的编辑距离(MED)排序算法,在编码和计算过程中引入查询词分布的位置、顺序和距离等信息,将查询和简短域之间的相关性问题转化为编码字符串的相似性问题。仿真实验结果表明,与传统的相关性排序算法相比,该算法可以提高网页搜索中简短网页域的相关性排序性能。 相似文献
12.
提出在与文本无关说话人确认中采用模型间马氏(Mahalanobis)距离的夹角作为测试算法,在混合高斯模型(Gaussian ixture Model)的情况下,采用这种算法在保持识别率与传统的对数似然度算法相近的前提下,可以大大降低运算量,对于说话人确认或识别的实时实现有很大的帮助.另外,推荐的算法与传统的对数似然度算法的结果可以融合,可以将说话人确认的等错误率降低12~15%. 相似文献
13.
序列数据在文本、Web访问日志文件、生物数据库中普遍存在,对其进行相似性查找是一种重要的获取和分析知识的手段.基于参考集索引技术是一类解决序列相似性查找的有效方法,主要思想是找到序列数据库中的少数序列作为参考集,通过参考集过滤掉数据库中与查询序列不相关的数据,从而高效地回答查询.在现有基于参考集索引技术的基础上,提出一种过滤能力更强的序列相似性查询算法IRI(improved reference indexing).首先,充分利用了先前的查询结果集来加速当前的查询,其次考虑了基于序列特征的上界和下界,使得应用参考集进行过滤的上下界更紧,过滤能力进一步加强.最后,为了避免候选集中费时的编辑距离计算,则只计算前缀序列间的编辑距离,从而进一步加速算法运行.实验采用真实的DNA序列和蛋白质序列数据,结果表明,算法IRI在查询性能上明显优于现有的基于参考集索引方法RI(reference indexing). 相似文献
14.
提出了同时适用于一维和多维序列数据的统一存储结构——编码频繁模式树(CFP-tree),并通过渐进的前缀序列搜索方式来发现频繁序列模式,避免了在挖掘过程中递归地产生大量的中间子序列。实验证明,该算法在大规模数据的处理上比现有序列模式挖掘算法有更好的性能。 相似文献
15.
针对当前XML文档结构聚类算法的一些不足,指出XML文档树中节点的重复和嵌套影响聚类的质量和效率.利用重复剪枝和嵌套剪枝简化XML文档树的表示,然后根据化简后的结构计算两棵XML文档树中的编辑距离,在此基础上得出两棵树整体的结构相似度量,按照层次聚类方法得到聚类结果.实验证明该算法有比较高的查全率和查准率,有效降低了时间复杂性,具有改进效果. 相似文献
16.
基于完美加密机制前提及D-Y攻击者模型,指出注入攻击是协议攻击者实现攻击目标的必要手段.分析了注入攻击及其形成的攻击序列的性质,并基于此提出了搜索攻击序列的算法,基于该算法实现了对安全协议的验证.提出和证明了该方法对于规则安全协议的搜索是可终止的,并通过实验实现了NS公钥协议的验证.实验结果表明,与OFMC等同类安全协议验证工具相比,该算法不仅能实现安全协议验证自动化,而且由于规则安全协议验证的可终止性,使得本算法更具实用性. 相似文献
17.
18.
通过对D-Y攻击者模型研究,可知注入攻击是攻击者实现其攻击目标的必要手段。对注入攻击序列的性质进行分析,提出了一种在安全协议会话状态空间中搜索注入攻击序列的算法,基于该算法可实现一种新的安全协议验证方法。利用该方法实现了NS公钥协议的验证。实验表明该方法可以实现对安全协议的自动化验证,降低了验证的复杂度,并能给出安全协议漏洞的具体攻击方法。 相似文献
19.
手机POI搜索已经成为手机搜索的主要应用之一。该文结合手机搜索的特点以及POI数据的结构性特征采用简拼进行POI搜索。由于词序相似度是影响简拼搜索排序结果的主要因素,该文提出了基于向量距离计算词序相似度的算法。该算法采用空间向量模型作为简拼的表示方法,将提取的公共简拼映射为位置向量,进而利用位置向量间的距离计算词序相似度。通过理论分析,该算法相比基于逆序数的词序相似度算法,将时间复杂度由O(nlogn)降为O(n),空间复杂度由O(n)降为O(1)。实验结果表明,基于向量距离的词序相似度算法有效地保证了准确性,可以满足手机POI简拼搜索的应用需求,并在性能上将词序相似度的计算效率提高16.88%。 相似文献
20.
基于归一化编辑距离和谱聚类的轨迹模式学习方法 总被引:6,自引:0,他引:6
针对欧氏距离和Hausdorff距离等在描述目标运动轨迹差异性时度量不够准确的问题,提出一种基于归一化编辑距离和谱聚类的轨迹分布模式学习方法.首先对目标的运动轨迹进行矢量量化编码;然后采用归一化的编辑距离来度量轨迹编码序列之间的差异,得到归一化编辑距离矩阵;再通过该矩阵进行谱聚类来提取轨迹的分布模式;最后利用所提取的轨迹分布模式确定整条轨迹及其局部是否异常.通过仿真和真实场景的实验验证了该方法的有效性. 相似文献