首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
一种面向网络答疑的汉语切分歧义消除算法   总被引:3,自引:0,他引:3  
针对网络答疑的特点,该文提出了一种汉语歧义消除算法,采用回溯机制及歧义消除评优算法相结合的方法消除汉语切分歧义。首先利用回溯机制发现句子的切分歧义字段,产生含有多种可能切分结果的候选集;然后针对网络答疑特点提出了评优算法,利用该算法计算候选结果的评价值,对其进行排序,选取分词最佳结果,从而消除歧义,提高分词的准确率。该算法已经在基于Web的自然语言答疑系统WebAnswerSystem中实现并得到了实际应用。实验结果表明,算法具有较高的准确率和召回率,对自然语言网络答疑中进行切分歧义消除是行之有效的。  相似文献   

2.
音节切分是整句拼音转换的基础,由于拼音的特殊性,存在歧义切分的可能。如果采用最少分词算法只能得到一种切分结果,不能保证整句拼音转换的正确性。提出一种音节切分算法,通过插入音素节点不断构造合法音节节点,进而生成状态空间,遍历算法遍历状态空间可获得所有的切分可能,而当用户进行删除操作时,只需删除部分相关节点。整个状态空间随用户的操作进行局部调整,分布均匀。该算法有利于存在歧义切分问题的整句拼音转换,可从保留下来的所有切分可能中选出一个全局最优的语句候选,保证整句转换的正确性。  相似文献   

3.
音节切分是整句拼音转换的基础,由于拼音的特殊性,存在歧义切分的可能.如果采用最少分词算法只能得到一种切分结果,不能保证整句拼音转换的正确性.提出一种音节切分算法,通过插入音素节点不断构造合法音节节点,进而生成状态空间,遍历算法遍历状态空间可获得所有的切分可能,而当用户进行删除操作时,只需删除部分相关节点.整个状态空间随用户的操作进行局部凋整,分布均匀.该算法有利于存在歧义切分问题的整句拼音转换,可从保留下来的所有切分可能中选出一个全局最优的语句候选,保证整句转换的正确性.  相似文献   

4.
为解决朝鲜语古籍数字化中朝汉文种混排字符切分困难的问题,提出一种朝鲜语古籍图像的文字切分算法。针对古籍列与列之间存在不连续间隔线、倾斜或者粘连等问题,提出一种基于连通域投影的列切分方法。利用连通域的删除、合并、拆分等操作对文字进行切分。使用一种多步切分法完成了具有文字大小不一,横向、纵向混合排版特点图像的字符切分工作。对于粘连字,采用改进的滴水算法进行有效切分。实验结果表明所提出的算法能够很好地完成朝、汉文种混排,文字大小不一,排版情况复杂的朝鲜语古籍图像的文字切分工作。该算法的列切分准确率为97.69%,字切分准确率为87.79%。  相似文献   

5.
一种视频中字符的集成型切分与识别算法   总被引:3,自引:0,他引:3  
杨武夷  张树武 《自动化学报》2010,36(10):1468-1476
视频文本行图像识别的技术难点主要来源于两个方面: 1)粘连字符的切分与识别问题; 2)复杂背景中字符的切分与识别问题. 为了能够同时切分和识别这两种情况中的字符, 提出了一种集成型的字符切分与识别算法. 该集成型算法首先对文本行图像二值化, 基于二值化的文本行图像的水平投影估计文本行高度. 其次根据字符笔划粘连的程度, 基于图像分析或字符识别对二值图像中的宽连通域进行切分. 然后基于字符识别组合连通域得到候选识别结果, 最后根据候选识别结果构造词图, 基于语言模型从词图中选出字符识别结果. 实验表明该集成型算法大大降低了粘连字符及复杂背景中字符的识别错误率.  相似文献   

6.
针对专利文本翻译中长句翻译的问题,提出了一种句子切分算法,即把长句切分成多个独立的小句后再进行翻译的方法。切分算法使用了概念层次网络(HNC)理论的语义特征来切分小句,切分算法和一个基于规则的基线翻译系统进行了融合,融合后的翻译系统的BLEU值达到0189 8,比融合前的系统提高了30%。实验结果证明,提出的方法可以有效地改进专利翻译效果。  相似文献   

7.
在分析传统手写汉字切分算法的基础上,提出了基于多阈值和多切分策略的间隙切分算法。算法初切分阶段就字符间距通过多个阈值进行切分,从而得到预切分的最佳结果,在二次切分阶段,通过多个阈值对初切分阶段的切分字块进行再次切分。实验结果表明,该算法相对于一般的间隙切分法,对汉字切分的准确率有较大的提高。  相似文献   

8.
书面汉语的全切分分词算法模型   总被引:11,自引:1,他引:10  
本文首先讨论了全切分研究的问题,然后从一般性出发提出了全切分的求解公式、切分树、全切分DAG(无环有向)图和全切分的抽象算法模型,在此基础上特别指出了全切分普遍存在的重复切分问题.进而,本文针对串行全切分分词算法和剪技的方法进行了研究,给出了串行全切分分词方法的算法模型.  相似文献   

9.
粘连断裂字符行的切分识别,是很多OCR 实际应用中存在的主要困难之一. 本文针对粘连断裂的印刷体数字行,提出了一种基于Viterbi 算法的切分识别方案,该方案采用两次切分识别的层次型结构. 在第二次切分识别过程中,首先,在候选切分点区域,结合灰度图像与二值轮廓信息,采用基于Viterbi 算法搜索的非直线路径进行切分,得到有效的切分路径;然后,结合分类器输出的可信度,采用Viterbi 算法来合并前面得到的候选切分图像块,进行动态切分与识别. 实际的金融票据识别系统实验表明,本文提出的印刷体数字行切分识别方法能够较好的克服字符行的粘连与断裂情况,提高了识别系统的识别率和鲁棒性.  相似文献   

10.
文中首先讨论了书面汉语切分研究的问题,然后从一般性研究出发,提出了全切分算法中可能的并发检索。并针对全切分分词算法进行了研究,给出了全切分分词方法算法中的并发检索模型。希望本文对于全切分算法中并发检索模型的讨论,对深入研究书面汉语全切分分词的问题和实现具有实际意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号