首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 312 毫秒
1.
目前,自然语言处理已经从句法、语法层面走向轻语义层面。对于汉语陈述句的处理,传统的方法是采用Lambek演算来进行处理。但是传统的Lambek演算无法处理汉语中的灵活语序问题,而现有的方法,如加入模态词、新连接词等,又因为其进一步使得本已是NP-hard的Lambek演算时间复杂度变大,并不适合当前的计算机处理。基于此,该文提出了λ-Lambek演算,即采用Lambek演算来对汉语陈述句进行句法演算,并通过Curry-Howard对应理论与λ-演算来对汉语陈述句进行轻语义模型的构建。λ-Lambek演算不仅能够对汉语陈述句进行轻语义演算,而且还能对汉语陈述句灵活语序进行处理。  相似文献   

2.
基于人工神经网络的汉语兼类处理方法的研究   总被引:7,自引:0,他引:7  
汉语兼类处理是计算机理解汉语的一个关键技术.目前广泛研究和应用的兼类处理方法大多是基于规则的.但实践表明规则处理系统在用于汉语兼类处理时效果并不尽如人意.文中首次将人工神经网络方法引入汉语兼类处理领域,选择确定了汉语兼类处理的神经网络的结构、输入信息和算法.在经过训练后,基于人工神经网络的汉语兼类处理系统在处理能力和效率上都显著超过了规则处理系统.  相似文献   

3.
汉语缩略语自动处理研究现状   总被引:1,自引:1,他引:0  
缩略语是自然语言中广泛使用的一类典型语言单元,也是最主要的新词来源。而新词会造成自然语言处理多个层面的困难。该文分析了汉语缩略语的特点,对汉语缩略语的构成形式作了总结,对汉语缩略语处理的问题作了划分,并针对不同的问题,重点介绍了在汉语中的研究现状;之后简要比较了汉语缩略语与英语缩略语的差异,并对英语缩略语处理的一些典型方法作了分析。  相似文献   

4.
规则和统计相结合的汉语词类标注方法   总被引:22,自引:5,他引:17  
本文分析了汉语的多类词现象与汉语词类标注的困难, 介绍了汉语词类标注中的规则排歧和统计排歧的处理策略以及规则和统计相结合的处理思路。按此思路设计的软件系统, 对封闭语料和开放语料的标注正确率分别达到了96.06%和95.82%。  相似文献   

5.
李灿  杨雅婷  马玉鹏  董瑞 《计算机应用》2021,41(11):3145-3150
针对低资源语言机器翻译任务上一直存在的标注数据资源匮乏问题,提出了基于语种相似性挖掘的神经机器翻译语料库扩充方法。首先,将维吾尔语和哈萨克语作为相似语言对并将其语料进行混合;然后,对混合后的语料分别进行字节对编码(BPE)处理、音节切分处理以及基于音节切分的BPE处理,从而深度挖掘哈语和维语的相似性;最后,引入“开始-中部-结束(BME)”序列标注方法对语料中已切分完成的音节进行标注,以消除音节输入所带来的一些歧义。在CWMT2015维汉平行语料和哈汉平行语料上的实验结果表明,所提方法相较于不进行特殊语料处理以及BPE语料处理训练所得普通模型在维吾尔语-汉语翻译上的双语评估替补(BLEU)值分别提升了9.66、4.55,在哈萨克语-汉语翻译上的BLEU值分别提升了9.44、4.36。所提方案实现了维语和哈语到汉语的跨语言神经机器翻译,提升了维吾尔语-汉语和哈萨克语-汉语机器翻译的翻译质量,可应用于维语和哈语的语料处理。  相似文献   

6.
多用途汉语方言语音数据库的设计   总被引:1,自引:0,他引:1  
建立了一个多用途汉语方言语音数据库,用于说话人信息处理、方言特征词识别、语音识别等领域的研究。以多通道的方式采集时长106小时的语音数据,包括七种主要的汉语方言区语音,对数据进行预处理。在此基础上提出了汉语方言数据库的设计标准以及实施方案,有助于推动汉语语音库特别是方言语音库的建立。  相似文献   

7.
用语义模式提取实体关系的方法   总被引:5,自引:0,他引:5       下载免费PDF全文
邓擘  樊孝忠  杨立公 《计算机工程》2007,33(10):212-214
研究了信息抽取中的汉语实体关系提取技术,在使用模式匹配技术的基础上引入了词汇语义匹配技术对汉语实体关系进行提取。比较了一般模式匹配技术和词汇语义模式匹配技术在汉语实体关系提取任务中的性能。实验结果表明,一般模式匹配技术在处理中文时效果较差,而词汇语义模式匹配技术更适合于处理汉语实体关系提取任务。  相似文献   

8.
书面汉语自动分词综述   总被引:9,自引:0,他引:9  
汉语分词是汉语言处理有别于拼音文字语言处理的特点之一。本文回顾了汉语自动分词的研究历史;对现有的四种计算机自动分词方法进行了评介;介绍了当前的研究现状和存在的困难。  相似文献   

9.
中文软件需要具有对中文文本的输入、显示、编辑、输出等基本功能,而且随着计算机技术的发展,对于计算机的文本处理能力提出了更高的要求,并且所有这些中文处理功能都要建立在对汉语文本的分词处理这一基本功能之上。因而,汉语分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用前景。  相似文献   

10.
汉语短语标注标记集的确定   总被引:25,自引:9,他引:16  
本文提出了一个汉语短语标注的基本标记集, 并从句法功能和结构组成方面对不同短语的性质进行了深入的分析和探讨, 以期为汉语短语划分和标注的自动处理和人工校对提供一个统一的处理标准。  相似文献   

11.
汉语统计语言模型的N值分析   总被引:10,自引:0,他引:10  
N 元语言模型(n - gram) 作为统计语言处理的主要方法,目前在汉语语言处理(词性标注、字符识别、语音识别等) 中已得到广泛的应用。但是,具体N 取何值为较优,目前尚没有明确的定论。本文从对汉语短语语法模式的近似表示、对未登录语词的自动检测与重构能力、和实际的音文转换应用系统性能测试三个方面出发,综合比较和分析了基于汉语词的N 元语言模型中N 值的选择。并得出结论:对于基于真实词的汉语N 元语言模型,N 的取值范围应介于3 至6 之间,且N = 4 为较优。这一结论将有助于汉语统计语言处理的发展。  相似文献   

12.
一种新的语言信息计算模型   总被引:1,自引:0,他引:1  
语言的可计算性问题是理论计算机科学的一个基本问题,字母文字信息的计算模型已经有数十年的历史,而适合汉语信息的计算模型尚未见到.中文信息处理与信息安全的研究迫切需要有适合汉语信息的数学计算模型,提出了两个新的字符串计算模型.在模型1的基础上定义了几个函数运算.利用这两个模型可以将任何汉语信息的处理转换为相应的数值进行处理,对汉语信息处理、汉语程序设计理论的建立和信息安全的研究具有一定的实际意义。  相似文献   

13.
汉语树库的构建   总被引:11,自引:7,他引:11  
本文讨论了汉语树库构建的若干基础问题, 包括一个适合于自动分析和人工标注的汉语句法标记集、汉语树库加工处理规范和人机互助的树库加工模型, 介绍了一个已经实现的汉语自动句法标注系统, 和在此基础上进行的一些树库构建实验, 最后提出了构建大规模汉语树库的设想。  相似文献   

14.
汉语中的兼类词、同形词类组及其处理策略   总被引:8,自引:2,他引:6  
本文从计算语言的角度, 系统地总结汉语中的歧义现象——兼类词和同形词类组, 对之进行了比较深入的研究,并且结合汉语自动句法分析, 给出了相应的处理策略。  相似文献   

15.
缪建明  张全 《计算机科学》2006,33(12):145-147
主谓谓语句是汉语特有的语言现象,主谓结构做谓语的格式也是汉语最常见、最重要的句式,也是汉语区别于印欧语的重要句式之一。现代汉语语法对这种特殊句式进行了深入的研究,在语法、语义等方面取得了长足进展。本文尝试在HNC理论的总体框架下,对这一特殊句式展开全面、系统的解释,并从计算语言学的角度形成特有的处理规则,便于计算机在原始语料中发现这类语句,最终形成针对主谓谓语句的专家处理系统。  相似文献   

16.
尹锋  林亚平 《软件世界》1996,(12):76-80
神经网络研究从40年代信息科学的开创时期诞生到现在走过了半个世纪的曲折历程后,迎来了一个空前活跃的新的发展时期,成为现代脑神经科学、数理科学及信息科学等综合研究领域的共同科学前沿之一。 自然语言自动分词与处理的研究在国外发端于50年代末,现已获得很大进展,我国汉语自动分词的研究起步较晚,始于80年代初,近几年来取得明显成效。但由于汉语结构上的复杂性和分词理论与技术等诸多原因的影响,使得汉语自动分词未能取得重大的实质性突破。 采用包括神经网络、专家系统在内的人工智能技术进行汉语自动分词研究,是当前中文信息处理领域的热门话题,也是该领域的一个重要发展方向。 为帮助广大读者了解汉语自动分词的研究进展以及神经网络等人工智能技术在汉语言处理方面的应用情况,本刊约请尹锋和林亚平同志撰写了《神经网络的发展及其在汉语言处理方面的应用》、《汉语自动分词技术的现状及发展趋势》、《神经网络汉语自动分词技术》和《神经网络专家系统集成式汉语自动分词技术》等四篇文章。尹锋和林亚平同志多年从事计算机科研与教学工作,发表了一系列成果和论文,近年来,致力于神经网络和汉语自动分词研究,这几篇文章反映了他们的部分研究成果。 《神经网络的发展及其在汉语言处理方面的应用》  相似文献   

17.
汉语受限语言的设计与应用   总被引:6,自引:2,他引:4  
在机器翻译和自然语言理解等领域内, 受限语言的研究是一项有意义的工作。本文在分析考查现代汉语岐义短语的基础上, 设计了一个汉语受限语言, 籍以对存在汉语中的岐义进行受限处理, 并且给出了一个应用实例——面向受限汉语的机器翻译前编辑系统。  相似文献   

18.
一个汉语短语自动界定模型   总被引:8,自引:1,他引:7  
周强 《软件学报》1996,7(A00):315-322
本文提出了一个汉语短语自动界定模型,它通过基于统计的自动界定处理,利用通过错误驱动自动学习而得到的调整规则界定情况局部调整,利用人工总结的全局调整规则进行精调整等3个处理阶段,可以较邹地确定一句经过正确切分和词性注处理的汉语句子中不同短语的边界位置,从而为时一步的汉语短语自动划分和标注处理打下了良好的基础,对1000多句句子的实验结果表明,模型的界定正确率达到了96.33%(封闭测试)、94.55  相似文献   

19.
本文提出了一个能由汉语科技资料里自动提取所需信息的汉语理解系统CUI,它能有效地应用于某一领域,并具有较好的适应性。本文强调了语义及领域知识的作用,探讨了汉语处理的分词;分析及理解阶段中的若干问题,还给出了系统各处理阶段的主要算法。  相似文献   

20.
张昕  陈小平 《计算机工程》2001,27(10):63-64,92
蒙太格文法是处理语法、语义和语用的典型方法,尤其在语义学方面独树一帜。通过对一个汉语语义悖论的安全分析,来表明Montague文法对于汉语语义悖论的解决,乃至对于整个汉语语义学的研究都具有非常重要的价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号