共查询到20条相似文献,搜索用时 78 毫秒
1.
本文实现了一个基于综合匹配法的汉字识别后处理系统,该方法既利用了帝级识别结果的信息,又利用了汉语中字的上下文制约关系,即组字成词的信息,同时用了词的使用频度。 相似文献
2.
In the paper, we introduce chinese corpus tagging based on statistical language model (bi-gram model)and Huang-Yu‘s smoothing method. Especially, we also suggest a two-directions method based on statistical languagemodel, namely, we not only compute probability of P(CIW)(W= w1w2w3…. wm),but also compute probability of P(C |wnwn-1…… w1)-From our experience we can see it can enhance the accuracy of Chinese corpus tagging using this method of two directions comoutation. 相似文献
3.
4.
为了提高汉语语音识别率, 本文根据一种基于马尔可夫模型的统计语言模型去实现汉语音字转换, 在实现过程中, 提出了它的简化模型, 该模型不仅保证了实时性,而且也为以后的工作打下伏笔; 同时对训练文本的稀疏问题提出了一种新的解决方案。利用以上模型的模拟实验表明, 前向-后向的马尔可夫模型具有较好的识别性能; 且以词为输出单元的模型识别性能优于以字符为输出单元的模型。 相似文献
5.
6.
7.
高阶N-gram语言模型在OCR后处理方面有着广泛的应用,但也面临着因模型复杂度大导致的数据稀疏,以及耗费较多的时空资源等问题。该文针对印刷体汉字识别的后处理,提出了一种基于字节的语言模型的后处理算法。通过采用字节作为语言模型的基本表示单位,模型的复杂度大大降低,从而数据稀疏问题得到很大程度上缓解。实验证明,采用基于字节的语言模型的后处理系统能够以极少的时空开销获取很好的识别性能。在有部分分割错误的测试集上,正确率从88.67%提高到了98.32%,错误率下降了85.18%,运行速度较基于字以及基于词的系统有了大幅的提升,提高了后处理系统的综合性能;与目前常用的基于词的语言模型后处理系统相比,新系统能够节省95%的运行时间和98%的内存资源,但系统识别率仅降低了1.11%。 相似文献
8.
基于HMM的汉语文本识别后处理琛 总被引:1,自引:0,他引:1
本文用HMM描述汉语文本识别后处理,将汉语语言和单字识别这两个概率模型结合起来,以充分利用单字识别器提供的信息。语言模型的参数由语料库统计得到:单字识别模型的参数为条件概率,经理论分析,它要转化为后难事概率来求解。在分析训练样本集单字识别结果的基础上,提出一种统计方法估计候选字的后验概率。HMM在脱机手写体汉语文本识别中的实验表明,后处理性能除取决于语言模型外,还取决于后验概率的精确估计。 相似文献
9.
10.
11.
在基于OCR技术的大规模文档录入系统中,自动检错可以大大降低人工校对成本。在日文OCR系统自动检错中,日文单词因其动词及形容词、形容动词的词尾变化现象使自动分词变得比较困难。本文提出了一种基于词素的日文分词新方法,通过建立以词素为基础单位的分词词库,以最大长度优先词条匹配方法分割出文章中有词尾变化的日文单词,避免了传统日文分词中收录单词各种词尾变化形式造成分词词库过于庞大的问题。实验表明,本文提出的分词方法可以达到99.0%的分词正确率;将该方法运用在OCR检错模块,当系统拒识率(即检错模块中认为可疑的字符在总字符中的比例)控制在1/5时,测试集上漏检率为0.05%,说明了该方法的有效性。 相似文献
12.
13.
首先介绍了统计语言模型(SLM)的发展及常用的N元(n-gram)模型,对信息检索过程中的主要模型作了公式化描述并比较了不同模型,指出了它们之间及与传统概率检索方法的异同,分析了统计语言模型的弱点,最后介绍了对其可能的改进方法及最新研究进展,讨论了在中文信息检索中的应用和面对的挑战。 相似文献
14.
文本检索的统计语言建模方法综述 总被引:2,自引:0,他引:2
统计语言建模技术(statistical language modeling,SLM)已逐渐成为当前语言信息处理的主流技术之一.近几年的研究和实验表明,SLM技术在文本检索领域有着广阔的发展前景和拓展空间.对基于SLM的文本检索方法(SLMTR)进行了综述,重点论述SLMTR的主要方法和关键技术.首先对查询似然检索模型进行形式化的描述;然后详细论述语言模型的估计和数据平滑问题;并讨论了平滑对检索性能的影响;之后简要介绍了对查询似然模型的一些主要的扩展和改进工作;最后的总结部分讨论了SLMTR所面临的一些挑战. 相似文献
15.
手写中文地址识别后处理方法的研究 总被引:1,自引:0,他引:1
OCR(光学字符识别技术)作为方便有效的字体识别技术,在办公自动化、信息恢复、数字图书馆等方面发挥着日益重要的作用。语言模型在OCR后处理,特别是在中文的文字识别后处理方面有着广泛的应用。本文针对手写中文地址的后处理,讨论了语言模型的粒度对识别正确率的影响,分析了基于字和基于词的语言模型各自的优点和缺点,并采用了基于词的语言模型,在此基础上提出了加权词图搜索算法。实验证明,在58269条中文手写地址的测试集上,手写地址的整体识别率由原来的28.56%上升到了75.66% ,错误率下降了65.93% ,大大提高了系统的性能。 相似文献
16.
17.
为了提高翻译系统的翻译准确率,在短语基础上结合模板的方法自动抽取模板结构;解码时,首先进行模板匹配,套用模板结构进行翻译,然后再按照Beam Search搜索算法进行后续翻译。因此,该方法可以有效地解决单一的统计翻译中语序错误。以汉蒙翻译为例,实验结果显示此方法可以有效地提高翻译效果,翻译效率比基于短语的统计翻译方法提高10%。 相似文献
18.
分析了邮件循环的产生因素及传统的检测方法,建立了基于邮件会话中来源与目的的统计模型,研究了会话时间序列的统计特性,据此计算各来源目的对的循环概率值,提出了一种新颖灵活的邮件循环检测算法. 相似文献
19.
In this paper, a novel statistical manifold algorithm is proposed for position estimation of sensor nodes in a wireless network, making full use of distance information available among unknown nodes and simultaneous localization of multiple unknown nodes. To begin, a ranging model including the distance information among unknown nodes is established. With the reparameterization of the natural parameter and natural statistic, the solution problem of the ranging model is transformed into a parameter estimation problem of the curved exponential family. Then, a natural gradient method is adopted to deal with the parameter estimation problem of the curved exponential family. To ensure the convergence of the proposed algorithm, a particle swarm optimization method is utilized to obtain initial values of the unknown nodes. Experimental results indicate that the proposed algorithm can improve the positioning accuracy, compared with the traditional algorithm. 相似文献