首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 78 毫秒
1.
字符串近似匹配在网络安全中有广泛的应用。本文从中文字符串相似度角度出发,提出了通过单个汉字的细分来提高字符相似度的想法,并从汉字"成簇性"方面进行分析,引出了汉字的Key表示方法,将汉字与Key的映射关系归结为规则,讨论了规则的获取方法。设计了基于规则的中文字符串近似匹配的框架,提出了新的相似度计算模型,并通过实验对整个流程加以验证,证明基于规则的中文字符串近似匹配的优越性。  相似文献   

2.
快速中文字符串模糊匹配算法   总被引:9,自引:3,他引:9  
本文解决了中文字符串模糊匹配的两个主要问题:空间问题和时间问题。目前字符串模糊匹配的两个主要方法是位向量方法和过滤方法。由于汉字众多,应用位向量方法时,需要大量空间。对于某些内存很少的小型计算机,比如嵌入式系统,这将会是一个问题。本文改进了位向量方法,使其在应用于中文字符串时,空间需求降低到约5%。本文还利用汉字非常多的特点,提出一种新的基于过滤方法的中文字符串模糊匹配算法,BPM-BM,其速度比世界上最快的算法至少提高14%;在大部分情况下,是其速度的1.5~2倍。  相似文献   

3.
涉及中文字符串记录的数据库管理是Java开发中的常见问题。由于Java语言对中文支持不足,导致中文字符串记录的排序不能很好地满足应用要求。该文在与当前中文排序方法比较分析的基础上,提出了一种通用的排序方法,适用于Java环境下中文字符串和数字类型记录的排序过程,较好地解决了中文字符串数据集记录的排序问题,并且针对记录添加和检索时易出现的谐音拼写错误,提出了谐音检索方法,提高了检索过程的容错和纠错性能。  相似文献   

4.
涉及中文字符串记录的数据库管理是Java开发中的常见问题。由于Java语言对中文支持不足,导致中文字符串记录的排序不能很好地满足应用要求。该文在与当前中文排序方法比较分析的基础上,提出了一种通用的排序方法,适用于Java环境下中文字符串和数字类型记录的排序过程,较好地解决了中文字符串数据集记录的排序问题,并且针对记录添加和检索时易出现的谐音拼写错误,提出了谐音检索方法,提高了检索过程的容错和纠错性能。  相似文献   

5.
串匹配问题是计算机科学研究中比较广泛的问题之一,目前字符串匹配算法主要是针对英文等字符的匹配居多,而针对中文等字符的匹配比较少,本文将针对中文字符匹配的算法进行浅析,提出一种适合中文字符模式近似匹配算法的设计,通过实验证明了该算法的有效性。  相似文献   

6.
传统的中文地名地址匹配技术难以处理大数据环境下海量、多样和异构的智慧城市地理信息空间中的中文地名地址快速匹配问题。提出了一种Spark计算平台下基于中文地名地址要素的匹配框架及应用智能决策的匹配算法(An Intelligent Decision Matching Algorithm,AIDMA)。首先,从中文地名地址中富含的语义性和中文字符串、数字与字母之间的自然分隔性两个方面进行地址要素解析,构建了融合多距离信息的贝叶斯推理网络,从而提出了基于多准则评判的中文地名地址匹配决策方法。然后,利用芜湖市514967条脱敏后的燃气开户中文地名地址信息库与1770979条网格化社区中的中文地名地址信息库(包含网格化地址的地理空间信息)进行实验与分析。实验结果表明,在处理大规模中文地名地址信息时,相比于传统的中文地名地址匹配方法,该方法能够有效提高单条中文地名地址的匹配效率,同时在匹配度与精确度两个指标上匹配结果更加均衡。  相似文献   

7.
基于过滤的中文多模式近似字符串匹配算法   总被引:1,自引:0,他引:1  
当前近似字符串匹配算法主要针对英文等中小字符集,该文针对汉字等大字符集的有效算法很少,尤其缺少适合汉字等大字符集的多模式近似匹配算法的情况,提出了一种适合汉字等大字符集的多模式近似匹配算法——MBPM-BM,通过实验证明了该算法的有效性。 近似字符串匹配;中文字符串匹配;多模式匹配;位并行运算;过滤  相似文献   

8.
提出一种改进的Trie树结构,树节点记录了字符串与构词的位置信息,子节点采用哈希查找机制,在此基础上优化了中文分词的正向最大匹配算法。分词过程中利用自动机机制判断是否构成最长词,解决了正向最大匹配算法需要根据词长调整字符串的问题。算法时间复杂度为1.33,对比试验结果表明有较快的分词速度。基于改进Trie树结构的正向最大匹配算法提高了中文分词速度,尤其适用于词典结构需要实时更新的场合。  相似文献   

9.
针对基于编辑距离的字符串模糊匹配方法搜索效率较低的问题,通过对字符串模糊匹配过程进行分析,利用并行化技术对大数据量的字符串模糊匹配过程进行优化.同时由于计算字符串间编辑距离算法性能较低,提出利用字符串过滤规则对待搜索字符串集合进行过滤后再进行模糊匹配的改进方法.实验结果表明,改进后的方法具有较高的执行效率并取得了较好的召回率和精度.  相似文献   

10.
王燚 《计算机应用》2004,24(10):121-124
提出了一种新的相似字符串查询的方法。其目的在于提高基于相似字符串匹配的查询在大规模字符串数据库中的查询效率,并且提供带通配符的字符串查询方式。该方法使用Trie数据结构组织数据库中的数据,使用基于编辑距离的相似字符串匹配方法,在Trie数据结构中进行高效的匹配和查询,得到K相似度下的候选词集。实验证明,本方法在K≤2时具有相当高的查询效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号