首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 81 毫秒
1.
适用于银行票据手写数字串切分的滴水算法   总被引:5,自引:0,他引:5  
在连通域提取与属性判别的基础上,得到不固定长度的粘连字串,利用波形分析的方法对字串个数进行判断,用具有指导信息的改进滴水切分算法解决了覆盖、粘连等非约束不确定位数的手写数字串切分问题. 该切分算法在实际的银行票据自动识别系统中取得了实用化的效果.  相似文献   

2.
给出了一个词库维护及检索系统,它采用基于PATRICIA tree的分词词典机制及灵活的词库维护及检索方法,不仅适用于传统的机械切分,更适合于串行和并行全切分.该词库系统已在一个全切分系统应用.  相似文献   

3.
充分利用车牌字符的局部与整体特征,提出了字符串的车牌相似度概念.并在此基础上提出了一种新的车牌字符切分算法.该算法将搜索连通区域切分与投影切分结合起来,通过聚类分析,遍历各种切分的可能情况,最终按照车牌相似度最大的字符串完成字符切分.实验结果表明,该算法有很好的可行性和有效性.  相似文献   

4.
介绍了一个比较不同中文分词算法在分词上异同的软件,特别是在歧义词条切分上的异同之处,它包括了容纳各种分词算法的框架结构及其设计,人工干预歧义切分的界面和显示不同分词方法切分统计结果等功能;通过测试统计,本软件基本可以比较出不同的分词方法在歧义切分上的优劣异同之处。  相似文献   

5.
分析了下一代网络环境下综合业务的特点及其对计费系 统的要求;提出了一种通用计费系统体系结构;介绍了事件切分和圆整在计费系统中的位置 ,提出了一种事件切分、圆整的算法;分析了事件切分和圆整的策略需求和现有主要策略, 并给出了事件切分和圆整算法在计费系统中的应用.  相似文献   

6.
综合业务计费中的事件切分和圆整策略研究   总被引:1,自引:0,他引:1  
分析了下一代网络环境下综合业务的特点及其对计费系 统的要求;提出了一种通用计费系统体系结构;介绍了事件切分和圆整在计费系统中的位置 ,提出了一种事件切分、圆整的算法;分析了事件切分和圆整的策略需求和现有主要策略, 并给出了事件切分和圆整算法在计费系统中的应用.  相似文献   

7.
基于LDP算法的手写数字串切分   总被引:10,自引:3,他引:7  
以银行票据OCR系统中的账号为例,分析了手写数字串切分的难点,提出了基于LDP算法的切分方法,并对切分过程中的搜索空间、搜索方法及代价函数进行了研究。实际应用表明,采用本方法处理手写数字串倾斜、拥挤和连笔的情况,能够取得良好效果。  相似文献   

8.
以人群速记连笔符切分为研究对象,根据GT启发式搜索算法和分层规划的观点,提出了一种改进型启发式搜索算法GT。该算法从新状态的产生到估计函数的建立都充分利用了问题中的启发式信息。理论分析和实验结果表明,该算法既考虑了搜索的完备性又兼顾民搜索的快速性,因此大大提高了搜索效率。该算法的基本概述和设计思想对其他类型的切分和边界检测问题也有很大指导作用。  相似文献   

9.
目的解决在较低质量灰度图像中进行字符切分问题.方法提出了一种字符切分方法,先对图像预处理来消除灰度不均匀性。再通过各个灰度级下的所有连通域的伪边界总长与面积的平方根之比找出一个阚值。使用泛滥填充算法,找出每个小于等于闽值像素的八连通域的边界,完成字符块预切分,最后找出重叠块和粘连块完成切分.结果通过对超过200幅的低质量灰度图像进行实验,获得了较满意的结果.结论由不同灰度级下连通域的伪边界总长与面积平方根的比值与连通域分散程度的相关性,可确定灰度图像中字符切分所用的阚值,经过合适的预处理可以在很大程度上消除低质量灰度图像对切分的影响.  相似文献   

10.
针对新闻图像中水平字幕行的字符切分问题,为了克服已有基于单字符切分方法造成的字符分裂问题,利用字幕行中字符的分布规律构造了响应函数,从而将字符切分问题转变为响应函数的最优值问题,最后基于优化结果进行字符切分.该算法主要包括两部分:首先,利用垂直投影直方图确定单个字符的粗略宽度,并根据该值构造一个可变长模板;然后,构造模板响应函数,根据不同长度模板的最优响应函数值确定单个字符的左右边界位置;最后输出切分结果.实验结果表明,对于粘连/非粘连字符图像,该算法均能获得较好的实验结果.  相似文献   

11.
自动分词是中文信息处理的关键步骤。由于具有结构简单、易于实现和开发周期短等优点,基于词典的分词方法被广泛应用。结合中文多字词数量少,使用频度低的特点,设计实现了一种新的词典机制,在此基础上,把分治策略引入到分词中,提出了一种新的分词算法,幷对该算法进行了理论分析和实验验证。  相似文献   

12.
英文文本识别系统中单词切分效果直接影响系统识别准确率.提出一种有效利用单词中的连通域以实现单词切分的方法,该方法首先对给定的图像文件进行扫描,搜索图像中所存在的所有连通域,然后根据连通域的坐标、尺寸等影响因素,对有效的连通域进行合并,并过滤掉噪声等因素所产生的连通域碎片,以实现有效的英文单词区域的正确分割,从而实现英文单词的正确切分.实验结果表明,针对相同的英文文本图像,该方法对英文单词切分的准确率达95%以上,与垂直投影切分法最高准确率27%相比有较大幅度的提高,证明该方法可以很好解决垂直投影法无法解决的字母之间相互交迭的单词切分问题.  相似文献   

13.
无监督的动态分词方法   总被引:2,自引:0,他引:2  
介绍了一种变长汉语语料自动分词方法,这种方法以信息理论中极限熵的概念为基础,运用汉字字串间最大似然度的概念,对汉语语料进行自动分词。讨论了这些方法的局限性,并列出了一些试验结果。  相似文献   

14.
汉语分词技术综述   总被引:15,自引:0,他引:15  
分词是中文信息处理的基础,在汉语文本分类、文献标引、智能检索、自然语言理解与处理等应用中,首先都要对中文文本进行分词处理。从分词的基本理论出发,对近年来的汉语分词的研究方法与成果进行了综合论述,分析了现有分词方法的特点,提出了把神经网络和专家系统结合起来建立集成式汉语自动分词系统的构想。  相似文献   

15.
数据清洗中,中文地址类信息对于重复记录的检测起着非常重要的作用。中文地址按照行政归属可划分为五级,通过组建地址信息数据库对中文地址进行匹配,提出基于地址树的中文地址分词技术,构建了中文地址的分词算法流程并设计了算法。  相似文献   

16.
近年来基于字的词位标注方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为汉语分词的主要技术路线。该方法中特征模板选择至关重要,采用四词位标注集,使用条件随机场模型进一步研究基于字的词位标注汉语分词技术,在第三届和第四届国际汉语分词评测Bakeoff语料上进行封闭测试,并对比了不同特征模板集对分词性能的影响。实验表明采用的特征模板集:TMPT-10′较传统的特征模板集分词性能更好。  相似文献   

17.
中文分词技术是中文信息处理的基础,快速、准确的中文分词方法是进行中文信息搜索的关键。基于N-最短路径的分词算法,需要计算有向图中从起点到终点的所有路径值,分词效率低,将动态删除算法与最短路径算法结合,通过从最短路径中删除部分节点的策略减少搜索路径范围,从而提高分词效率。  相似文献   

18.
基于双向匹配法和特征选择算法的中文分词技术研究   总被引:1,自引:0,他引:1  
传统的双向匹配算法虽然能够发现歧义现象,但是却不能解决歧义问题.为了更好地进行歧义消解,提出了一种基于双向匹配法和特征选择算法的中文分词技术,通过积累的语料库,设计并实现了一个基于两种方法的分词系统.该系统的实验结果表明,基于双向匹配法和特征选择算法的中文分词技术比传统方法的效果要好.  相似文献   

19.
基于多特征的自适应新词识别   总被引:4,自引:0,他引:4  
为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统辅助的边界确认信息等,并直接从被抽取文本中自动训练识別模型.同时,新词识别过程在字串PAT-Array数据结构上进行,可以抽取任意长度的新词语.实验结果表明,该方法新词发现速度快、节省存储空间.  相似文献   

20.
最大概率分词问题及其解法   总被引:10,自引:0,他引:10  
提出了一种新的汉族自动分词算法,该算法运用人工智能中的问题求解技术,先将汉族句子的切分问题归约为若干字段的切分问题,再用启发式状态空间搜索技术将每个字段分别转换为概率最大的词序列。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号