首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 281 毫秒
1.
韦向峰  张全  熊亮 《计算机科学》2006,33(10):152-155
汉语语音识别的研究越来越重视与语言处理的结合,语音识别已经不是单纯的语音信号处理。N-gram语言模型应用到语音识别系统中,大大增强了系统的正确率和稳定性,但它也有其自身的局限性,使得语音识别出现许多语法和语义的错误结果。本文分析了语音识别产生语音和文字方面的错误的原因和类型,在概念层次网络语言模型的基础上提出了一种基于语句语义分析和混淆音矩阵的语音识别纠错方法。通过三个发音人、5万字的声音语料和216句实验语句的纠错测试,本文的纠错系统在纠正语义搭配型错误方面有比较好的表现,可克服N-gram语言模型带来的一些缺陷。本文提出的纠错方法还可以融合到语音识别系统中,以便更好地为语音识别的纠错处理服务。  相似文献   

2.
使用自然语言对数据库进行操作,有利于数据库技术的进一步推广应用。本文首先对语音识别的主要技术隐马尔可夫模型进行了综述,对数据库操作的词法和语义进行了研究,分析给出了基本的操作语句框架。  相似文献   

3.
针对汉语文本语义搭配错误,在对《现代汉语语义信息词典》(以下简称《语义词典》)及《知网》相关属性的研究基础上,提出了基于多知识源的语义搭配知识库的构建方法,并设计出了面向汉语文本语义查错的三层语义搭配知识库结构.在此基础上,设计并实现了一个汉语文本自动查错算法.实验结果表明,基于上述方法所设计的语义搭配知识库,可以大大提高汉语文本语义查错算法错误查找的召回率,对于语义查错的研究具有一定的借鉴作用.  相似文献   

4.
汉语核心框架语义分析是从框架语义角度,通过抽取句子的核心框架,获取汉语句子的核心语义骨架。该文将核心框架语义分析分为核心目标词识别、框架选择和框架元素标注三个子任务,基于各个子任务的不同特点,采取最大熵模型分别对核心目标词识别与框架选择任务进行建模;采用序列标注模型条件随机场对框架元素标注任务进行建模。实验在汉语框架网资源的10 831条测试语料中显示,核心目标词识别和框架元素标注F值分别达到99.51%和59.01%,框架选择准确率达到84.73%。  相似文献   

5.
本文从C程序查错的词法错误、语法错误、语义错误和逻辑错误四个角度出发,重点对词法查错和语法查错原理进行了探究,并分别用易于口语交流的自然语言表示法、易于书面语表达的形式化表示法和利于人机交流的语法图表示法进行了分析.  相似文献   

6.
汉字文本的切割算法和汉字模式识别是汉字识别的关键技术.本文就上述两个方面阐述了富有特色的算法,包括:语义切割法和智能模式识别,并探讨了汉字识别的有关问题.  相似文献   

7.
基于SVM的组块识别及其错误驱动学习方法   总被引:1,自引:0,他引:1  
给出了一种错误驱动学习机制与SVM相结合的汉语组块识别方法。该方法在SVM组块识别的基础上,对SVM识别结果中的错误词语序列的词性、组块标注信息等进行分析,获得候选校正规则集;之后按照阈值条件对候选集进行筛选,得到最终的校正规则集;最后应用该规则集对SVM的组块识别结果进行校正。实验结果表明,与单独采用SVM模型的组块识别相比,加入错误驱动学习方法后,组块识别的精确率、召回率和F值均得到了提高。  相似文献   

8.
基于语义神经网络的汉语表层语义分析   总被引:1,自引:0,他引:1       下载免费PDF全文
本文提出一种基于语义神经网络的汉语表层语义分析方法。该方法将符号主义和连接主义结合在一起。文中给出了语义神经网络的定义、构造,以及应用于汉语表层语义分析的算法。  相似文献   

9.
基于规则的汉语自动分词系统   总被引:36,自引:3,他引:33  
本文通过对汉语自动分词难点的分析, 讨论了词频和词结合力的关系, 提出了一套机械切分与语义校正的汉语自动分词方法。系统包括建立绝对切分标志符表, 变长度最大匹配法、2一3一1优先规则集、固有歧义切分和组合歧义切分校正方法等。最后列举描述语义校正规则的实例。系统作为CETRAN.A的一部令, 在SUN8一280工作站上实现。  相似文献   

10.
语义相关度计算在信息检索、词义消歧、自动文摘、拼写校正等自然语言处理中均扮演着重要的角色。该文采用基于维基百科的显性语义分析方法计算汉语词语之间的语义相关度。基于中文维基百科,将词表示为带权重的概念向量,进而将词之间相关度的计算转化为相应的概念向量的比较。进一步,引入页面的先验概率,利用维基百科页面之间的链接信息对概念向量各分量的值进行修正。实验结果表明,使用该方法计算汉语语义相关度,与人工标注标准的斯皮尔曼等级相关系数可以达到0.52,显著改善了相关度计算的结果。  相似文献   

11.
本文旨在介绍在英汉翻译系统基础之上实现汉语语音输出系统ECTRAN/SO。着重讨论如何利用英汉翻译系统的语法、语义信息,产生停顿和轻音信息,借以得到自然流畅的语音输出,在本输出系统的实现过程中,用波形存储法建立常用音库,实现了简单句子的语音输出。  相似文献   

12.
提出了一种基于子词链的中文新闻广播故事自动分割方法。利用中文同音异形字众多、词典开放、分词多样和组词灵活等特点,在新闻广播的语音识别抄本上采用中文子词单元(汉字和音节)创建子词链,进行中文新闻广播故事的自动分割,有效地解决了在传统词链方法中由于语音识别错误(特别是词典未收录词汇)导致的相关联词之间无法匹配的问题。同时,利用各级词汇表示单元之间的互补性,如词的表义确定性和子词对语音识别错误的鲁棒性,对各级词汇进行融合,利用不同级别词汇表示单元的优势进一步提高中文新闻广播故事分割的性能。在TDT2中文标准新闻  相似文献   

13.
An experimental Mandarin dictation machine for inputting Mandarin speech (spoken Chinese language) into computers is described. Because of the special characteristics of the Chinese language, syllables are chosen as the basic units for dictation. The machine is designed based on a hierarchical language recognition approach in which acoustic signals are first recognized as a sequence of syllables, possible word hypotheses are then formed from the syllables, and the complete sentences are finally obtained. This approach is implemented by two subsystems. The first recognizes the syllables using speech signal processing techniques, the second subsystem then identifies the exact characters from the syllable and corrects the errors in syllable recognition. The detailed syllable recognition algorithms, word formation rules, parser, grammar, and the syntactic checking algorithms are described. With newspaper text in the form of isolated syllables as input, the preliminary test results indicate that such a dictation machine is not only practically attractive, but technically feasible  相似文献   

14.
汉字的表义性是其区别于表音文字的一大特点.部件作为构字单位,同汉字的意义之间有着很大的联系.然而,汉字部件的表义能力究竟如何是学界尚待讨论的课题.针对这一问题,该文从汉字部件入手,提出了融合部件的字词分布式表示模型.该模型在向量内部评测任务上性能获得了一定提升,在汉字理据性测量任务上也与人工打分结果显著相关.基于该模型...  相似文献   

15.
基于统计的主客观分析方法难以很好地反映中文的语义内涵,而基于语义的主客观分析方法需要大量的专家知识,且存在知识难以抽取,难以表示的问题。提出的基于语义的TriPos模式的中文主客观分析方法(SeTriPos)将基于统计的分析方法与基于语义的分析方法相结合,扩大了词的上下文定义范围,增加了简单、易于表示的语义规则,对分析结果进行调整,并通过实验的方法获得效果较好的实验参数。实验结果表明SeTriPos提高了主客观分析的判全率、判准率和F值,从而显示了该方法的合理性和有效性。  相似文献   

16.
浅谈编译器的错误检测与处理   总被引:3,自引:0,他引:3  
结合编程实际中遇到的问题,讨论了高级语言编译中的错误产生原因、错误种类、错误检测手段和可行的几种恢复办法的优劣。  相似文献   

17.
Effective teaching should focus the attention of learners to its essential aspects. It follows that instructional software can be designed in such a way that allows learners to experience the important variations in the critical aspects of the content to be learned. This paper reports on the experience of designing such special kinds of instructional learning objects for the learning of Chinese characters. The design of these learning objects takes into consideration not only what Chinese characters are all about but also how learners commonly make errors while they learn to write the characters. Out of the analysis of these learners' errors, variations in the structural features of Chinese characters were pulled out and embodied in the design of the learning objects. Learners tinkering with the learning objects can thus implicitly develop a sense of the structural features or regularity of Chinese characters, which most importantly should prepare the learners to learn more new characters in the future. The main proposal of this paper is the notion of this variation‐affording instructional software that allows learners to attend to the essential aspects of what is to be learned. Furthermore, the idea of the learning object also differs from other instructional software in its small, self‐contained and reusable nature, such that teachers can flexibly embed the learning objects into their own teaching materials.  相似文献   

18.
基于k-近似的汉语词类自动判定   总被引:6,自引:0,他引:6  
生词处理在面向大规模起初文本的自然语言自理各项应用中占有重要位置。词类自动判定就是对说情水知的生词由机器自动赋予一个合适的词类标记。文中提出了一种基于k=近拟的词类自动判定算法,并在一个1亿字汉语语料库及一个60万字经过人工分词和词类标注汉语熟语料库的支持下,构造了相应实验。实验结果初步显示,本算法对汉语开放词类--名词动词开窍词的词类自动判定平均正确率分别为99.21%、84.73%、76.5  相似文献   

19.
基于统计的中文词法分析往往依赖大规模标注语料,语料的规模和质量直接影响词法分析系统的性能。高覆盖率、高质量的语料资源非常有限,而且适用于不同领域的语料往往具有不同的分词和词性标注标准,难以直接混合使用,从而导致既有资源未能充分利用,分词精度下降等问题。针对该问题,该文提出了简单有效的异种语料的自动融合方法,并通过实验验证了提案方法的有效性、较强的实用性以及对多种语料融合的可扩展性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号