首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
本文实现了一个基于综合匹配法的汉字识别后处理系统,该方法既利用了帝级识别结果的信息,又利用了汉语中字的上下文制约关系,即组字成词的信息,同时用了词的使用频度。  相似文献   

2.
In the paper, we introduce chinese corpus tagging based on statistical language model (bi-gram model)and Huang-Yu‘s smoothing method. Especially, we also suggest a two-directions method based on statistical languagemodel, namely, we not only compute probability of P(CIW)(W= w1w2w3…. wm),but also compute probability of P(C |wnwn-1…… w1)-From our experience we can see it can enhance the accuracy of Chinese corpus tagging using this method of two directions comoutation.  相似文献   

3.
基于字统计语言模型的汉语语音识别研究   总被引:1,自引:0,他引:1  
隐马尔可夫模型(HMM)由于较好地描述了语音的特性,在语音识别的研究中占主导地位,基于HMM的识别算法也因取得了较好的识别效果而得到广泛应用.但其仅仅依靠语音信号的声学模型来进行识别处理,因此存在着不能利用语言的非声学知识进行识别的固有缺陷.该文提出的新方法将基于N元文法(N-gram)的统计语言模型应用于汉语语音识别,推导了模型多数的估值公式,并给出了模型的训练和识别算法.初步实验表明:引入统计语言模型有利于降低识别难度和改善语音识别性能.  相似文献   

4.
为了提高汉语语音识别率, 本文根据一种基于马尔可夫模型的统计语言模型去实现汉语音字转换, 在实现过程中, 提出了它的简化模型, 该模型不仅保证了实时性,而且也为以后的工作打下伏笔; 同时对训练文本的稀疏问题提出了一种新的解决方案。利用以上模型的模拟实验表明, 前向-后向的马尔可夫模型具有较好的识别性能; 且以词为输出单元的模型识别性能优于以字符为输出单元的模型。  相似文献   

5.
基于N-gram语言模型的汉字识别后处理研究   总被引:1,自引:0,他引:1  
为提高汉字文本的识别率,本文将基于统计的N-gram元语言模型和单字识别器概率模型结合起来,以充分利用单字识别器提供的信息.该方法把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率和距离值信息,采用Viterbi算法,对汉字识别文本进行自动后处理.经过实验证明,后处理将汉字识别准确率平均值从97.62%提高到98.71%.  相似文献   

6.
语音识别中统计与规则结合的语言模型   总被引:1,自引:1,他引:1  
王轩  王晓龙  张凯 《自动化学报》1999,25(3):309-315
在分析语音识别系统中,基于规则方法和统计方法的语言模型,提出了一种对规则进行量化的合成语言模型.该模型既避免了规则方法无法适应大规模真实文本处理的缺点,同时也提高了统计模型处理远距离约束关系和语言递归现象的能力.合成语言模型使涵盖6万词条的非特定人孤立词的语音识别系统的准确率比单独使用词的TRIGRAM模型提高了4.9%(男声)和3.5%(女声).  相似文献   

7.
高阶N-gram语言模型在OCR后处理方面有着广泛的应用,但也面临着因模型复杂度大导致的数据稀疏,以及耗费较多的时空资源等问题。该文针对印刷体汉字识别的后处理,提出了一种基于字节的语言模型的后处理算法。通过采用字节作为语言模型的基本表示单位,模型的复杂度大大降低,从而数据稀疏问题得到很大程度上缓解。实验证明,采用基于字节的语言模型的后处理系统能够以极少的时空开销获取很好的识别性能。在有部分分割错误的测试集上,正确率从88.67%提高到了98.32%,错误率下降了85.18%,运行速度较基于字以及基于词的系统有了大幅的提升,提高了后处理系统的综合性能;与目前常用的基于词的语言模型后处理系统相比,新系统能够节省95%的运行时间和98%的内存资源,但系统识别率仅降低了1.11%。  相似文献   

8.
基于HMM的汉语文本识别后处理琛   总被引:1,自引:0,他引:1  
本文用HMM描述汉语文本识别后处理,将汉语语言和单字识别这两个概率模型结合起来,以充分利用单字识别器提供的信息。语言模型的参数由语料库统计得到:单字识别模型的参数为条件概率,经理论分析,它要转化为后难事概率来求解。在分析训练样本集单字识别结果的基础上,提出一种统计方法估计候选字的后验概率。HMM在脱机手写体汉语文本识别中的实验表明,后处理性能除取决于语言模型外,还取决于后验概率的精确估计。  相似文献   

9.
政策文本的量化研究近年来受到了政策研究学者的广泛关注,其研究结论以客观数据为依据,在很大程度上可以克服以往对政策定性分析的主观性和随机性.已有定量政策文本分析方法主要存在两方面的不足:一方面,对于政策文本的采集主要依靠手工收集,其数据规模较小;另一方面,在政策识别方面主要依靠人类经验,在小规模数据集上进行偏置归纳.针对...  相似文献   

10.
11.
在基于OCR技术的大规模文档录入系统中,自动检错可以大大降低人工校对成本。在日文OCR系统自动检错中,日文单词因其动词及形容词、形容动词的词尾变化现象使自动分词变得比较困难。本文提出了一种基于词素的日文分词新方法,通过建立以词素为基础单位的分词词库,以最大长度优先词条匹配方法分割出文章中有词尾变化的日文单词,避免了传统日文分词中收录单词各种词尾变化形式造成分词词库过于庞大的问题。实验表明,本文提出的分词方法可以达到99.0%的分词正确率;将该方法运用在OCR检错模块,当系统拒识率(即检错模块中认为可疑的字符在总字符中的比例)控制在1/5时,测试集上漏检率为0.05%,说明了该方法的有效性。  相似文献   

12.
该文提出了一种基于自定义知识库强化获取规则集,以及规则与统计模型相结合的日语时间表达式识别方法。在按照Timex2标准对时间表达进行细化分类的基础上,我们结合日语时间词的特点,渐进地扩展重构日语时间表达式知识库,实现基于知识库获取的规则集的优化更新,旨在不断提高时间表达式的识别精准度。同时,融合CRF统计模型提高日语时间表达式识别的泛化能力。实验结果显示开放测试F1值达0.898 7。  相似文献   

13.
首先介绍了统计语言模型(SLM)的发展及常用的N元(n-gram)模型,对信息检索过程中的主要模型作了公式化描述并比较了不同模型,指出了它们之间及与传统概率检索方法的异同,分析了统计语言模型的弱点,最后介绍了对其可能的改进方法及最新研究进展,讨论了在中文信息检索中的应用和面对的挑战。  相似文献   

14.
文本检索的统计语言建模方法综述   总被引:2,自引:0,他引:2  
统计语言建模技术(statistical language modeling,SLM)已逐渐成为当前语言信息处理的主流技术之一.近几年的研究和实验表明,SLM技术在文本检索领域有着广阔的发展前景和拓展空间.对基于SLM的文本检索方法(SLMTR)进行了综述,重点论述SLMTR的主要方法和关键技术.首先对查询似然检索模型进行形式化的描述;然后详细论述语言模型的估计和数据平滑问题;并讨论了平滑对检索性能的影响;之后简要介绍了对查询似然模型的一些主要的扩展和改进工作;最后的总结部分讨论了SLMTR所面临的一些挑战.  相似文献   

15.
手写中文地址识别后处理方法的研究   总被引:1,自引:0,他引:1  
OCR(光学字符识别技术)作为方便有效的字体识别技术,在办公自动化、信息恢复、数字图书馆等方面发挥着日益重要的作用。语言模型在OCR后处理,特别是在中文的文字识别后处理方面有着广泛的应用。本文针对手写中文地址的后处理,讨论了语言模型的粒度对识别正确率的影响,分析了基于字和基于词的语言模型各自的优点和缺点,并采用了基于词的语言模型,在此基础上提出了加权词图搜索算法。实验证明,在58269条中文手写地址的测试集上,手写地址的整体识别率由原来的28.56%上升到了75.66% ,错误率下降了65.93% ,大大提高了系统的性能。  相似文献   

16.
选票信息的自动处理能提高录入速度、保证选的公正性,绝大多数的选票信息自动处理系统都是采用光学标记识别的方法。该方法对于选票纸张和填写要求较高,而且误识率较高,该文提出了一种基于神经网络和学习子空间光学字符识别(OCR)方法。该识别方法具有对纸张和填写的要求低,精度高、通用性好的特点。  相似文献   

17.
为了提高翻译系统的翻译准确率,在短语基础上结合模板的方法自动抽取模板结构;解码时,首先进行模板匹配,套用模板结构进行翻译,然后再按照Beam Search搜索算法进行后续翻译。因此,该方法可以有效地解决单一的统计翻译中语序错误。以汉蒙翻译为例,实验结果显示此方法可以有效地提高翻译效果,翻译效率比基于短语的统计翻译方法提高10%。  相似文献   

18.
分析了邮件循环的产生因素及传统的检测方法,建立了基于邮件会话中来源与目的的统计模型,研究了会话时间序列的统计特性,据此计算各来源目的对的循环概率值,提出了一种新颖灵活的邮件循环检测算法.  相似文献   

19.
In this paper, a novel statistical manifold algorithm is proposed for position estimation of sensor nodes in a wireless network, making full use of distance information available among unknown nodes and simultaneous localization of multiple unknown nodes. To begin, a ranging model including the distance information among unknown nodes is established. With the reparameterization of the natural parameter and natural statistic, the solution problem of the ranging model is transformed into a parameter estimation problem of the curved exponential family. Then, a natural gradient method is adopted to deal with the parameter estimation problem of the curved exponential family. To ensure the convergence of the proposed algorithm, a particle swarm optimization method is utilized to obtain initial values of the unknown nodes. Experimental results indicate that the proposed algorithm can improve the positioning accuracy, compared with the traditional algorithm.   相似文献   

20.
针对自然语言中数学领域的特点,提出了一种智能辅导系统中建立模型的方法。该方法通过对语义理解结果的名词聚类分析,调用静态知识库中相应的内涵模型,根据静态知识库中对内涵模型的描述在语义理解结果中搜集相应的信息使抽象概念具体化。在此基础上依据领域知识对题目进行信息挖掘,并根据题目类型对信息进行约简,从而建立模型。这种建模方法在智能辅导系统中得到了较好的应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号