首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 234 毫秒
1.
面向自然语言处理的词汇语义研究应该以词汇的计量研究为基础。该文在评述汉语词汇计量研究的主要成果以后,提出一个汉语常用词知识库的建设任务,并给出常用词表的构造性定义、词表常用性的定量评价方法以及“部件词”的概念,最后介绍现代汉语常用词知识库的总体设计和已经做的工作。期望常用词知识库的建设能为汉语词汇语义学研究、为中文信息处理事业的发展做出贡献。  相似文献   

2.
中文信息处理中自动分词技术的研究与展望   总被引:22,自引:0,他引:22  
汉语自动分词是中文信息处理的关键技术,已经成为中文信息处理发展的瓶颈。文章介绍了当前自动分词技术的研究状况,对各种分词算法进行了介绍,并对各种算法进行了比较和讨论。最后,对汉语自动分词技术的发展进行了展望。  相似文献   

3.
葛锐 《软件》2013,34(3)
汉语分词,就是将中文语句中的词汇切分出来的过程.分词技术作为中文信息处理的基础环节,它的解决是计算机自然语言理解、人工智能、信息检索、机器翻译等领域突破的关键.因此,开发出一个高精度的汉语分词系统对于中文信息处理显得非常重要.本文讨论了中文分词的概念、目标及其所面临的一些基本问题,并详细介绍了我以自己的认识为基础设计的分词词典以及分词算法.  相似文献   

4.
汉语自动分词技术研究   总被引:1,自引:0,他引:1  
汉语自动分词是中文信息处理的基本问题.从分词的基本理论出发,对近年来中文分词研究的现状进行介绍,指出了能够大幅度提高未登录词识别性能的分词方法将是未来汉语自动分词技术的发展趋势,分析了分词中存在的两个困难及其解决方法.  相似文献   

5.
该文对比了句本位语法图解树库与中文信息处理现行词法规范在分词单位和词类标注两方面的差异,指出目前自动词法分析与句法分析的若干脱节之处,梳理了图解树库中关于临时造词、惯用语等特殊结构的标注策略和语言学理据,并探讨了“依句辨品”和“指称化”等汉语词类相关理论在中文信息处理中的实现方式。  相似文献   

6.
中文软件需要具有对中文文本的输入、显示、编辑、输出等基本功能,而且随着计算机技术的发展,对于计算机的文本处理能力提出了更高的要求,并且所有这些中文处理功能都要建立在对汉语文本的分词处理这一基本功能之上。因而,汉语分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用前景。  相似文献   

7.
汉语传统语法首推黎锦熙《新著国语文法》为代表。黎氏语法是以讲句子成分和句子格局为主要特征的语法体系,被称为“句本位”的语法。该文首先简要回顾了汉语语法体系自《马氏文通》以来的变化发展历史,梳理了传统语法与结构语法两大流派的主要思想和理论特色。然后从汉语树库角度剖析了当前中文信息处理领域主流语法体系的优缺点,并将它们与传统语法体系做了深入的比较分析,得出将传统语法应用于中文信息处理的必要性。最后讨论传统语法在中文信息处理领域应用需要面对的几个关键问题。  相似文献   

8.
中文信息处理是一个未来具有广阔前景的科研领域。从中文信息处理的研究内容、主流技术等几个方面浅谈了对计算机中文信息处理的认识。  相似文献   

9.
书讯     
中文信息学会最近组织编写了《中文信息处理丛书》,该书的出版得到了清华大学出版社与广西科学技术出版社共同设立的“计算机学术著作出版基金”的支持。 《中文信息处理丛书》包括这个领域的基础研究和技术研究的各个方面,词的切分和频率统计,汉  相似文献   

10.
论汉语自动分词方法   总被引:37,自引:2,他引:37  
文章简单考查了目前中文信息处理领域中已有的几种主要的汉语自动分词方法, 提出自动分词方法的结构模型ASM(d,a,m),对各种分词方法的时间复杂度进行计算, 对于时间复杂度对分词速度的影响, 以及分词方法对分词精度的影响也进行了分析;同时指出并论证在自动分词中设立“ 切分标志”是没有意义的。  相似文献   

11.
古汉语双字词自动获取方法的比较与分析   总被引:1,自引:0,他引:1  
词汇的自动获取在自然语言生成、计算词典编纂、句法分析以及语料库语言学等领域均有着重要的研究价值。该文针对古汉语双字词的自动获取问题,以《史记》全文语料为例,分别应用基于频率、互信息、假设检验的统计方法获取古汉语双字词,并结合人工标注结果进行了详细的比较和分析,评价了各方法的优缺点及可靠性,为不同应用背景下的古汉语双字词自动获取提供了相应的解决方案。  相似文献   

12.
盲人用计算机软件系统中的语音和自然语言处理技术   总被引:3,自引:0,他引:3  
本文介绍了智能技术与系统国家重点实验室开发的“北极光”盲人用计算机软件系统中涉及的语音和语言处理技术。该系统能够获取和分析需要反馈的屏幕信息,通过语音合成平台将其内容朗读出来,对用户进行语音提示;与汉语自动分词、语言模型等自然语言处理技术的结合,使系统能够进行汉字和盲文的转换,反馈信息可以通过盲文点显器输出,使用户能够摸读盲文点字来获取所需要的信息,用户也可以采用盲文输入法进行输入,输入结果可转换为汉字文本形式。  相似文献   

13.
针对标准C编译器没有提供操作大于64kB的巨型数据的库函数这一缺陷,阐述了实模式、16位保护模式、32位保护模式的内存组织方式和寻址方式,并介绍了在这些不同内存模式中使用巨型数据的方法,进而克服了这一缺陷。  相似文献   

14.
哈萨克文信息处理的现状和发展方向   总被引:1,自引:0,他引:1  
在信息日趋网络化的时代,作为中文信息处理中的子项哈萨克文信息处理技术也开始一步一步地进入研究当中,该文介绍了哈萨克文信息处理技术的现状、研究发展方向和一些关键概念、基本要素以及今后哈萨克文信息处理技术发展中存在的和需解决的问题。  相似文献   

15.
为了能够有效地对中国手语进行信息处理,需要针对中国手语的特性提出相应的信息处理方案。该文根据国内外的研究进展情况,从基于规则和基于语料库的角度,讨论了中国手语信息处理过程中遇到的有关问题,并提出可借鉴的中国手语信息处理技术,同时从中国手语自身的词法、句法出发,参考国外手语语言学的最新研究成果,讨论了中国手语信息处理中有关信息表征、理解、生成等问题。最后指出未来手语的信息处理将会更多地建立在跨学科、多模式的基础之上 ,该项研究将有力地促进信息无障碍技术的发展。
  相似文献   

16.
词义消歧是自然语言处理领域的一个重要研究课题。词义标注的一致性将直接影响语料库的建设质量,进而直接或间接影响到其相关的应用领域。由于语言本身的复杂性与发展性以及算法设计的难点和缺陷,目前各种词义标注的算法与模型还不能百分之百正确地标注词义,即不能保证词义消歧的正确性与一致性。而人工校验在时间、人力方面的投入是个难题。该文在对《人民日报》语料、语句相似度算法和语义资源《知网》研究的基础上,提出了对《人民日报》语料词义标注进行一致性检验的方法。实验结果表明,此方法是有效的。  相似文献   

17.
综合型语言知识库的建设与利用   总被引:15,自引:4,他引:15  
语言知识库的规模和质量决定了自然语言处理系统的成败。经过18年的努力,北京大学计算语言学研究所已经积累了一系列颇具规模、质量上乘的语言数据资源:现代汉语语法信息词典,大规模基本标注语料库,现代汉语语义词典,中文概念词典,不同单位对齐的双语语料库,多个专业领域的术语库,现代汉语短语结构规则库,中国古代诗词语料库等等。本项研究将把这些语言数据资源集成为一个综合型的语言知识库。集成不同的语言数据资源时,必须克服它们之间的“缝隙”。规划中的综合型语言知识库除了有统一的友好的使用界面和方便的应用程序接口外,还将提供支持知识挖掘的工具软件,促使现有的语言数据资源从初级产品形式向深加工产品形式不断发展;提供多种形式的知识传播和信息服务机制,让综合型语言知识库为语言信息处理研究、语言学本体研究和语言教学提供全方位的、多层次的支持。  相似文献   

18.
为了构建汉语功能块自动识别系统,该文利用条件随机域模型对经过正确词语切分和词性标注处理的汉语句子进行功能块边界识别和功能信息标注处理,通过在特征提取阶段优化组合丰富的上下文特征,得到功能块识别的精确率、召回率和F1-measure值分别为85.84%、85.07%和85.45%。在此基础上,该文引入由词义聚合关系将汉语单词组织起来的《同义词词林》作为语义资源,把其中的语义信息作为特征加入到功能块的识别过程,缓解了数据稀疏以及歧义问题对识别结果造成的影响,使得上述三个性能指标分别提高到86.21%、85.31%和85.76%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号