首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
基于过滤的中文多模式近似字符串匹配算法   总被引:1,自引:0,他引:1  
当前近似字符串匹配算法主要针对英文等中小字符集,该文针对汉字等大字符集的有效算法很少,尤其缺少适合汉字等大字符集的多模式近似匹配算法的情况,提出了一种适合汉字等大字符集的多模式近似匹配算法——MBPM-BM,通过实验证明了该算法的有效性。 近似字符串匹配;中文字符串匹配;多模式匹配;位并行运算;过滤  相似文献   

2.
拼写错误和缩写问题是中文数据清洗的核心问题,目前相关研究还很欠缺。提出了一种基于Token匹配的中文数据清洗方法,将中文字符串转换成拼音字符串,采用Token匹配算法检测处理中文数据中的"脏数据"。实验表明,提出的方法能够有效地提高数据的准确度,大大减少了人工工作量。  相似文献   

3.
王凤玲 《计算机工程》2011,37(18):164-166
分析中文缩略语的构词方式,定义2个词之问的词形相似度,提出一种基于最长字符串匹配的相似度计算方法,探讨该方法在中文报道关系识别系统中的应用.实验结果表明,该相似度计算方法能够改善中文报道关系识别系统的性能,使系统的归一化检测开销降低12.96%,取得较好的识别效果.  相似文献   

4.
孙进  龚沛曾 《福建电脑》2010,26(2):59-61
本文提出一种字符串之间的模式产生算法。算法的思想来源于一个新颖的想法:通过比较两个字符串,得到两个字符串的不同之处.并采用一套事先定义的规则来泛化这些不同之处,从而得到一个能够同时匹配这两个字符串的模式.我们使用正规表达式来表示这个模式。为了计算两个字符串的不同之处,本文使用了字符串近似匹配的方法,并提出了一种基于动态规划的改进算法,降低了已有算法的时空复杂度。  相似文献   

5.
快速中文字符串模糊匹配算法   总被引:9,自引:3,他引:9  
本文解决了中文字符串模糊匹配的两个主要问题:空间问题和时间问题。目前字符串模糊匹配的两个主要方法是位向量方法和过滤方法。由于汉字众多,应用位向量方法时,需要大量空间。对于某些内存很少的小型计算机,比如嵌入式系统,这将会是一个问题。本文改进了位向量方法,使其在应用于中文字符串时,空间需求降低到约5%。本文还利用汉字非常多的特点,提出一种新的基于过滤方法的中文字符串模糊匹配算法,BPM-BM,其速度比世界上最快的算法至少提高14%;在大部分情况下,是其速度的1.5~2倍。  相似文献   

6.
王燚 《计算机应用》2004,24(10):121-124
提出了一种新的相似字符串查询的方法。其目的在于提高基于相似字符串匹配的查询在大规模字符串数据库中的查询效率,并且提供带通配符的字符串查询方式。该方法使用Trie数据结构组织数据库中的数据,使用基于编辑距离的相似字符串匹配方法,在Trie数据结构中进行高效的匹配和查询,得到K相似度下的候选词集。实验证明,本方法在K≤2时具有相当高的查询效率。  相似文献   

7.
针对现有中文Deep Web查询接口的模式匹配方法准确度不高、效率较低、自动化不够等问题,提出了一种基于AHPH的中文Deep Web模式匹配方法.该方法通过对属性进行配对后计算各个属性匹配对的相似度,根据一定的规则获取最优匹配.针对属性配对的相似度计算,采用基于《知网》(Hownet)的词语相似度计算方法得到属性词语之间的各个相似度,并利用层次分析法(AHP)为属性词汇之间的各个相似度分配权重.实验结果表明,该方法能明显提高模式匹配的精确度和召回率,有效地提高了匹配质量.  相似文献   

8.
一种有效的并行汉字/字符串相似检索技术   总被引:1,自引:0,他引:1  
王素琴  邹旭楷 《软件学报》1995,6(8):463-467
本文提出了一种有效的并行汉字/字符串相似检索技术.通过引入搜索状态向量及字符一模式匹配向量,该技术将字符串匹配比较转化为简单的整数字位运算,通过对字符串方向相反的搜索有效地实现了多处理机对汉字/字符串的并行相似检索.文中也给出了并行实现算法,同时分析了算法的复杂性.  相似文献   

9.
提出一种基于语义词典的本体对齐框架.首先抽取出代表本体元素的字符串,这些字符串包括本体中的概念、实例、关系等,并利用现有的词典和语义资源将字符串变为词的集合;然后将本体对齐转换为单词集合间的映射,通过多相似度的匹配算法来进行相似度计算,从而实现本体对齐.实验结果表明,所提出的方法是有效的且较之以前的对齐方法有一定的提高.  相似文献   

10.
牛强  夏士雄  胡祖辉 《控制与决策》2011,26(8):1273-1276
针对传统的基于相似度的故障规则匹配方法中未考虑输入条件与规则前件的整体匹配程度问题,采用二分图最优匹配方法对匹配过程进行优化,提出一种基于二分图的故障规则匹配优化算法,并将其应用于故障诊断推理.实例分析表明,与其他相似度匹配算法相比,所提出的方法有效提高了规则匹配的准确率,而且降低了时间消耗.  相似文献   

11.
一种融合多种编辑距离的字符串相似度计算方法*   总被引:5,自引:0,他引:5  
针对中西文混合字符串,采用了将汉字作为西文字符的等价单位计算编辑距离的方法,并从输入法的角度提出了采用拼音编码和五笔编码计算编辑距离的方法,最后给出了融合三种编辑距离计算字符串相似度的算法。仿真结果表明,该方法在提高相似重复记录检测的查全率的同时,也能获得较高的查准率。  相似文献   

12.
Information retrieval in document image databases   总被引:2,自引:0,他引:2  
With the rising popularity and importance of document images as an information source, information retrieval in document image databases has become a growing and challenging problem. In this paper, we propose an approach with the capability of matching partial word images to address two issues in document image retrieval: word spotting and similarity measurement between documents. First, each word image is represented by a primitive string. Then, an inexact string matching technique is utilized to measure the similarity between the two primitive strings generated from two word images. Based on the similarity, we can estimate how a word image is relevant to the other and, thereby, decide whether one is a portion of the other. To deal with various character fonts, we use a primitive string which is tolerant to serif and font differences to represent a word image. Using this technique of inexact string matching, our method is able to successfully handle the problem of heavily touching characters. Experimental results on a variety of document image databases confirm the feasibility, validity, and efficiency of our proposed approach in document image retrieval.  相似文献   

13.
The segmentation of touching characters is still a challenging task, posing a bottleneck for offline Chinese handwriting recognition. In this paper, we propose an effective over-segmentation method with learning-based filtering using geometric features for single-touching Chinese handwriting. First, we detect candidate cuts by skeleton and contour analysis to guarantee a high recall rate of character separation. A filter is designed by supervised learning and used to prune implausible cuts to improve the precision. Since the segmentation rules and features are independent of the string length, the proposed method can deal with touching strings with more than two characters. The proposed method is evaluated on both the character segmentation task and the text line recognition task. The results on two large databases demonstrate the superiority of the proposed method in dealing with single-touching Chinese handwriting.  相似文献   

14.
15.
基于统计和规则的未登录词识别方法研究   总被引:8,自引:0,他引:8       下载免费PDF全文
周蕾  朱巧明 《计算机工程》2007,33(8):196-198
介绍了一种基于统计和规则的未登录词识别方法.该方法分为2个步骤:(1)对文本进行分词,对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,利用贪心算法获得每个碎片的最长路径,从而提取未登录词;(2)在上一步骤的基础上,建立二元模型,并结合互信息来提取由若干个词组合而成的未登录词(组).实验证明该方法开放测试的准确率达到81.25%,召回率达到82.38%.  相似文献   

16.
汉字/字符串编辑距离和编辑路径的有效求解技术   总被引:2,自引:0,他引:2  
本文提出了一种有效的编辑距离和编辑路径求解技术,该技术不但适合于单字符字符串而且也适合于双字节汉字串的编辑距离和编辑路径的计算。它首先通过一有效的字符串相似匹配算法计算出串编辑距离,而后通过简单的二进制字位运算正确计算出串(最短)编辑路径。文章也给出了本技术的完整实现算法并分析了算法的复杂性。  相似文献   

17.
一种改进的BM模式匹配算法   总被引:1,自引:0,他引:1       下载免费PDF全文
刘沛骞  冯晶晶 《计算机工程》2011,37(17):248-249
针对BM模式匹配算法的效率问题,提出其改进算法.分析BM模式匹配算法的原理,若文本串中连续的几个字符不在模式字符串中出现,则不需要被比对,以此改变模式字符串的匹配顺序,提高算法的匹配效率.实验结果表明,改进的BM模式匹配算法可以有效地减少字符串的匹配次数和比对次数,能获得良好的字符串匹配效率.  相似文献   

18.
在传统的基于树的翻译模型中,一般都是将一条规则视为字符串,然后使用字符串匹配技术从规则表中搜索可用的规则.然而,由于基于树的翻译模型依赖于句法分析的结果,而有些语言的句法分析准确率并不是很高,所以由句法分析错误造成的规则无法匹配的现象很常见,特别是在树到树的翻译模型中,能够精确匹配的规则数量非常稀少,进而对机器翻译的性...  相似文献   

19.
文章提出了一种手写汉字预分类的新方法,该方法分两步进行,首先提取笔划密度特征并用模糊规则产生四个预分类组;然后通过模糊逻辑处理将各组字符分别转换成基于非线性加权函数的模糊样板并通过基于模糊相似测量的匹配算法、相似性测量样板的分级分类进行预分类。测试结果表明,该方法效果良好,预分类正确率达到98.17%。  相似文献   

20.
王浩  张霖 《计算机应用与软件》2012,29(5):114-116,129
提出一种基于坏字符序检测的快速模式匹配算法(BCSBM)。该算法利用相邻字符序列在模式串中不出现的概率较单字符高的特性,基于好字符和坏字符序表实现字符匹配过程的"跳跃"。BCSBM算法显著减少了匹配窗口内字符的匹配次数,同时增大了匹配窗口的平均移动距离。算法的实际测试效率较高,在文本或模式串相对较长的情况下该算法的效率提高明显。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号