首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
多种字符串相似度算法的比较研究   总被引:3,自引:0,他引:3  
对计算字符串相似度的编辑距离算法、最长公共子串算法、贪心字符串匹配算法、RKR-GST等多种算法,根据匹配过程是否有序,对这些算法进行了分类。然后对每种算法的实现原理进行了描述,并给出每个算法的运行步骤,结合一个实际的例子列出了算法运行的结果,最后给出每种算法计算相似度的计算公式和算法时间复杂度及应用领域。由于字符串相似度具有广泛的应用领域,对其中经典的几种算法进行总结对比是一件十分有意义的研究工作。  相似文献   

2.
一种融合多种编辑距离的字符串相似度计算方法*   总被引:5,自引:0,他引:5  
针对中西文混合字符串,采用了将汉字作为西文字符的等价单位计算编辑距离的方法,并从输入法的角度提出了采用拼音编码和五笔编码计算编辑距离的方法,最后给出了融合三种编辑距离计算字符串相似度的算法。仿真结果表明,该方法在提高相似重复记录检测的查全率的同时,也能获得较高的查准率。  相似文献   

3.
本体创建和使用的自治性和主观性导致了本体异构现象的大量产生。本体匹配正是解决本体异构问题的最有效途径。传统的利用本体结构信息进行匹配的方法并未充分利用本体的树形结构特点,这导致本体匹配过程具有大量的冗余计算。论文提出了一种基于映射的匹配算法,将两棵本体树的节点之间的相似度预先得出,然后使用基于编辑操作的映射理论将两棵树转换成同构树,最终得到两个本体之间的最大相似度和最佳匹配对。实验表明,算法在本体匹配中具有较高的可行性和有效性。  相似文献   

4.
在语句语义相似度计算的算法中,没有考虑语句中的不同词语对语句之间相似度值的不同贡献程度,以致计算结果不理想。为此提出了基于频率函数的改进词语相似度算法,该算法将词语在语料库中的频率函数作为权重值,引入至语句的词语相似度计算中,以降低高频率词语在语句相似度值中的比重,提高算法精确率。由于当前审计方法存在散、乱、重复等现象,为了更好地复用已有的审计方法,将根据审计方法建立审计规则库,在此基础上,利用上述改进的语义相似度算法,计算用户输入与审计规则之间的相似度值,返回满足相似度阈值条件的审计规则所对应的审计方法,用户根据所返回的审计方法,选择合适的审计方法进行审计工作。实际应用表明,该算法的应用减少了人工搜索审计方法的时间,提高了审计效率。  相似文献   

5.
程序代码相似度度量是用来检测剽窃及重复率、验证学生作业原创性的关键科技技术,这一技术还可以对所评阅的作业进行自动修改,通过对算法在程序代码相似度度量中的应用进行研究,可以辅助教师有效的衡量出学生程序设计对间的相似程度,从而检测出学生作业中相似的程序代码,促进教学评价的科学性和真实性,实现尊重原创、提倡创新的社会效益和教育目的。  相似文献   

6.
在基于纹理合成的图像修复算法中,最佳样本块匹配算法存在匹配精度不高和时间复杂度高等问题。针对上述问题,首先构造了块匹配算法,采用矩阵相似度来计算模板块与样本块之间的匹配度,以相对较粗的粒度初步选出最佳样本块的候选集。然后,又构造了像素点匹配算法,采用模板块与候选最佳样本块之间的误差矩阵的内积来计算对应像素点之间的匹配度,以更细的粒度来确定最终的最佳样本块。块匹配算法降低了时间复杂度,像素点匹配算法提高了匹配精度,因此,在此基础上构造的基于相似矩阵的最佳样本块匹配算法能够在不增加时间复杂度的情况下提高算法的匹配精度。实例验证结果表明,与当前基于纹理的图像修复算法相比,该算法的匹配精度提高,时间复杂度降低。  相似文献   

7.
程序代码相似度度量算法研究   总被引:5,自引:0,他引:5  
代码剽窃是程序设计课程中经常出现的一种作弊行为,检测剽窃的源代码,验证学生程序作业的原创性在教学中很重要.程序代码的相似度度量是剽窃检测的关键技术.通过对现有程序代码相似度度量技术进行研究后,基于Karp-Rabin和最长公共子串算法思想,提出了一种改进的源代码相似度度量算法,即串的散列值匹配算法.  相似文献   

8.
基于子树匹配的文本相似度算法   总被引:1,自引:0,他引:1  
为降低文本向量维度,提高文本间语义相似度度量性能,综合利用统计方法与语义词典的优势,提出一种文本相似度算法.基于文本生成元数据特征向量,减少向量空间维度,设计基于子树匹配的文本相似度算法,借助子树加速对文本相似度的计算,并通过将文本元数据特征向量与子树进行相似度语义匹配,提高文本相似度计算时语义相似度度量的准确性.该算法考虑到对元数据中同义词的语义理解,加强文本之间相似度度量时的语义覆盖能力.实验结果表明文中所提出的方法是可行和有效的.  相似文献   

9.
轨迹相似性度量是轨迹数据挖掘的基础问题。受设备型号、信号强度和周围环境的影响,轨迹数据具有噪声大、数据量大、采样不均匀等特征,给轨迹相似性度量带来了极大的挑战。因此,提出了基于时空金字塔匹配的轨迹相似度算法,通过在时间和空间维度上对轨迹进行不同粒度的划分,然后利用不同粒度的权重组合来衡量轨迹之间的相似性。该算法能够有效克服轨迹噪声的影响,同时兼顾了轨迹的时间特性和空间特性,并具有较低的计算复杂度。最后,利用真实的信令数据集和人工合成的全球定位系统数据集进行实验,实验结果证明了该算法在准确率和计算复杂度方面都优于目前的主流算法。  相似文献   

10.
一种改进的编辑距离算法及其在数据处理中的应用   总被引:8,自引:0,他引:8  
基于数据处理的需要,在分析原有编辑距离算法的基础上,通过拓展交换操作减少编辑操作的数量。与仅对计算点之前相邻位置字符间的交换操作相比,通过对计算点前后非相邻位置字符间的交换操作改进该算法,能够得到更理想化的编辑距离。将改进的编辑距离算法应用于煤矿隐患数据的处理,提高了隐患数据分类分级的有效性和执行效率。  相似文献   

11.
维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借词识别的维吾尔语拉丁化规则;根据以上规则对维吾尔语拉丁化,并对汉语词进行拼音化,将借词发音相似转换为字符串相似这一易量化标准;提出了位置相关的最小编辑距离模型、加权公共子序列模型以及二者的带参数融合模型。实验结果表明,综合考虑字符串全局相似性和局部相似性的带参数融合模型取得了最佳的识别效果。  相似文献   

12.
程传鹏  齐晖 《计算机工程》2012,38(5):288-290
针对传统主观题自动评分准确度低的问题,提出一种基于文本相似度计算的主观题评分方法。利用扩展的《同义词词林》计算词语之间的相似度,根据标准答案中的词语和学生答卷中的词语以及词语之间的相似度构造二部图,通过二部图的最大匹配算法获得标准答案和学生答案的相似度。实验结果表明,该方法可以给主观题评分提供一个较好的参考。  相似文献   

13.
提出了一种基于相似度传播的复杂网络间节点匹配方法.引入节点相似度传播过程,使得初始的相似度信息能够按网络拓扑结构传播到全局,从而能够充分利用有限数目已匹配节点对所提供的相似度信息.该传播过程的稳态分布与一个大矩阵的主特征向量等价,可采用幂方法的迭代形式来高效求解,最后利用图论中的KM(Kuhn-Munkres)算法来抽取最终的匹配节点对.以四种不同结构的网络节点匹配实验为例,对本文算法进行了测试和验证.实验统计结果表明,本文方法显著提高了节点匹配的精度.  相似文献   

14.
质谱成像技术无需任何样品预处理,即可获取待测样品的分子信息和分布情况。本文采用表面解吸常压化学电离质谱(SDAPCI-MS)技术对手写签名样品进行检测,通过对所得的质谱特征峰信号进行成像处理,获取书写油墨分布的强度信息。实验结果表明真实签名和伪造签名因为笔压轻重不同而油墨分布位置不同,据此能够区分签名的真伪。应用相似度算法对手写签名的特征成像数据进行分析,在样品量较少的情况下,能够客观的比较真迹之间以及真迹和伪迹之间的相似程度,进而实现对真伪签名的准确鉴定。本方法操作简便,耗时较短,对手写笔迹的鉴定具有重要的借鉴意义。  相似文献   

15.
语句相似度计算在FAQ中的应用   总被引:1,自引:1,他引:1  
语句相似度主要用以衡量两个语句的相似程度。语句相似度计算方法应用于FAQ中,能够提高查找问题的精确性。文章提出的基于单字的倒排索引相似查找算法能够提高查找速度。  相似文献   

16.
提出了一种基于项目综合相似度的协同过滤算法。综合相似度是项目相似度和类别相似度进行加权, 加权方式是从热能学中协同计算燃烧传热量的高温辐射换热综合发射率ε公式比拟得出, 两者均是计算综合系数, 在计算综合系数中可以通用。实验结果表明, 在推荐不同的前N个项目的实验中, 用新方法得到的准确率高于传统方法; 在固定推荐数目改变最近邻的实验中, 用新方法得到的准确率高于传统方法, 因此可以得出结论:基于项目综合相似度的协同过滤算法可以提高计算准确性, 提高推荐质量。  相似文献   

17.
在地理信息系统中,很多复杂的数据对象可以用多个不同类型的简单属性数据来表示,但对这些复杂数据对象的比较是个难题,而数据对象之间的相似度表示可以很好地解决这个问题。该文就复杂对象问的相似度表示和计算进行了探讨,给出了一个计算混合类型数据对象相似度的方法,并论述了该相似度计算方法在复杂对象之间的比较和排序中的应用。  相似文献   

18.
印鉴识别相似度的计算框架   总被引:1,自引:0,他引:1  
印鉴识别是计算机图像处理和模式识别技术的重要应用.基于模板匹配提出了一种印鉴识别相似度的算法框架,并应用于实际的印鉴识别过程.修正了经典相似度公式不能直接应用于实际的印鉴识别系统的问题,将差异像素点的特征信息加入到该算法中,使真假印鉴与预留印鉴匹配后的相似度结果很好地分布在阈值的两边.同时,为了使算法更加可靠和高效,引入多测度的相似度进行印鉴识别.实验结果表明,在不同层次的匹配级别上使用不同测度的相似度可以提高算法效率,而由多种相似测度综合而成的多测度相似度具有很强的区分性和鲁棒性.  相似文献   

19.
针对大型胃癌诊断数据库中疑似病例的确诊问题,提出了一种聚类挖掘算法,该算法使用匹配系数计算相似度来确定疑似病例,对于大型的数据库具有较好的优越性能。研究结果表明,运用所提算法在医学领域确定疑似病例能取得较好效果。  相似文献   

20.
一种基于纹线相似度的指纹匹配算法   总被引:2,自引:0,他引:2  
本文研究了一种基于纹线相似度的指纹匹配算法,利用纹线的相似程度寻找一对基准细节点(referenceminutiae),根据基准细节点对所在的纹线计算两幅待匹配指纹图像的相对旋转和平移参数,并将待识指纹相对于模板指纹做姿势纠正,最后使用动态搜索半径以坐标匹配的方式实现两枚指纹的匹配.实验结果表明,该算法可以正确、快速地实现指纹匹配,对图像的旋转、平移具有不变性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号