共查询到20条相似文献,搜索用时 171 毫秒
1.
2.
拼写错误和缩写问题是中文数据清洗的核心问题,目前相关研究还很欠缺。提出了一种基于Token匹配的中文数据清洗方法,将中文字符串转换成拼音字符串,采用Token匹配算法检测处理中文数据中的"脏数据"。实验表明,提出的方法能够有效地提高数据的准确度,大大减少了人工工作量。 相似文献
3.
分析中文缩略语的构词方式,定义2个词之问的词形相似度,提出一种基于最长字符串匹配的相似度计算方法,探讨该方法在中文报道关系识别系统中的应用.实验结果表明,该相似度计算方法能够改善中文报道关系识别系统的性能,使系统的归一化检测开销降低12.96%,取得较好的识别效果. 相似文献
4.
本文提出一种字符串之间的模式产生算法。算法的思想来源于一个新颖的想法:通过比较两个字符串,得到两个字符串的不同之处.并采用一套事先定义的规则来泛化这些不同之处,从而得到一个能够同时匹配这两个字符串的模式.我们使用正规表达式来表示这个模式。为了计算两个字符串的不同之处,本文使用了字符串近似匹配的方法,并提出了一种基于动态规划的改进算法,降低了已有算法的时空复杂度。 相似文献
5.
快速中文字符串模糊匹配算法 总被引:9,自引:3,他引:9
本文解决了中文字符串模糊匹配的两个主要问题:空间问题和时间问题。目前字符串模糊匹配的两个主要方法是位向量方法和过滤方法。由于汉字众多,应用位向量方法时,需要大量空间。对于某些内存很少的小型计算机,比如嵌入式系统,这将会是一个问题。本文改进了位向量方法,使其在应用于中文字符串时,空间需求降低到约5%。本文还利用汉字非常多的特点,提出一种新的基于过滤方法的中文字符串模糊匹配算法,BPM-BM,其速度比世界上最快的算法至少提高14%;在大部分情况下,是其速度的1.5~2倍。 相似文献
6.
提出了一种新的相似字符串查询的方法。其目的在于提高基于相似字符串匹配的查询在大规模字符串数据库中的查询效率,并且提供带通配符的字符串查询方式。该方法使用Trie数据结构组织数据库中的数据,使用基于编辑距离的相似字符串匹配方法,在Trie数据结构中进行高效的匹配和查询,得到K相似度下的候选词集。实验证明,本方法在K≤2时具有相当高的查询效率。 相似文献
7.
针对现有中文Deep Web查询接口的模式匹配方法准确度不高、效率较低、自动化不够等问题,提出了一种基于AHPH的中文Deep Web模式匹配方法.该方法通过对属性进行配对后计算各个属性匹配对的相似度,根据一定的规则获取最优匹配.针对属性配对的相似度计算,采用基于《知网》(Hownet)的词语相似度计算方法得到属性词语之间的各个相似度,并利用层次分析法(AHP)为属性词汇之间的各个相似度分配权重.实验结果表明,该方法能明显提高模式匹配的精确度和召回率,有效地提高了匹配质量. 相似文献
8.
一种有效的并行汉字/字符串相似检索技术 总被引:1,自引:0,他引:1
本文提出了一种有效的并行汉字/字符串相似检索技术.通过引入搜索状态向量及字符一模式匹配向量,该技术将字符串匹配比较转化为简单的整数字位运算,通过对字符串方向相反的搜索有效地实现了多处理机对汉字/字符串的并行相似检索.文中也给出了并行实现算法,同时分析了算法的复杂性. 相似文献
9.
提出一种基于语义词典的本体对齐框架.首先抽取出代表本体元素的字符串,这些字符串包括本体中的概念、实例、关系等,并利用现有的词典和语义资源将字符串变为词的集合;然后将本体对齐转换为单词集合间的映射,通过多相似度的匹配算法来进行相似度计算,从而实现本体对齐.实验结果表明,所提出的方法是有效的且较之以前的对齐方法有一定的提高. 相似文献
10.
11.
12.
Information retrieval in document image databases 总被引:2,自引:0,他引:2
Yje Lu Chew Lim Tan 《Knowledge and Data Engineering, IEEE Transactions on》2004,16(11):1398-1410
With the rising popularity and importance of document images as an information source, information retrieval in document image databases has become a growing and challenging problem. In this paper, we propose an approach with the capability of matching partial word images to address two issues in document image retrieval: word spotting and similarity measurement between documents. First, each word image is represented by a primitive string. Then, an inexact string matching technique is utilized to measure the similarity between the two primitive strings generated from two word images. Based on the similarity, we can estimate how a word image is relevant to the other and, thereby, decide whether one is a portion of the other. To deal with various character fonts, we use a primitive string which is tolerant to serif and font differences to represent a word image. Using this technique of inexact string matching, our method is able to successfully handle the problem of heavily touching characters. Experimental results on a variety of document image databases confirm the feasibility, validity, and efficiency of our proposed approach in document image retrieval. 相似文献
13.
Liang Xu Fei Yin Qiu-Feng Wang Cheng-Lin Liu 《International Journal on Document Analysis and Recognition》2014,17(1):91-104
The segmentation of touching characters is still a challenging task, posing a bottleneck for offline Chinese handwriting recognition. In this paper, we propose an effective over-segmentation method with learning-based filtering using geometric features for single-touching Chinese handwriting. First, we detect candidate cuts by skeleton and contour analysis to guarantee a high recall rate of character separation. A filter is designed by supervised learning and used to prune implausible cuts to improve the precision. Since the segmentation rules and features are independent of the string length, the proposed method can deal with touching strings with more than two characters. The proposed method is evaluated on both the character segmentation task and the text line recognition task. The results on two large databases demonstrate the superiority of the proposed method in dealing with single-touching Chinese handwriting. 相似文献
14.
15.
16.
汉字/字符串编辑距离和编辑路径的有效求解技术 总被引:2,自引:0,他引:2
邹旭楷 《计算机研究与发展》1996,33(8):574-580
本文提出了一种有效的编辑距离和编辑路径求解技术,该技术不但适合于单字符字符串而且也适合于双字节汉字串的编辑距离和编辑路径的计算。它首先通过一有效的字符串相似匹配算法计算出串编辑距离,而后通过简单的二进制字位运算正确计算出串(最短)编辑路径。文章也给出了本技术的完整实现算法并分析了算法的复杂性。 相似文献
17.
18.
19.
文章提出了一种手写汉字预分类的新方法,该方法分两步进行,首先提取笔划密度特征并用模糊规则产生四个预分类组;然后通过模糊逻辑处理将各组字符分别转换成基于非线性加权函数的模糊样板并通过基于模糊相似测量的匹配算法、相似性测量样板的分级分类进行预分类。测试结果表明,该方法效果良好,预分类正确率达到98.17%。 相似文献
20.
提出一种基于坏字符序检测的快速模式匹配算法(BCSBM)。该算法利用相邻字符序列在模式串中不出现的概率较单字符高的特性,基于好字符和坏字符序表实现字符匹配过程的"跳跃"。BCSBM算法显著减少了匹配窗口内字符的匹配次数,同时增大了匹配窗口的平均移动距离。算法的实际测试效率较高,在文本或模式串相对较长的情况下该算法的效率提高明显。 相似文献