首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 406 毫秒
1.
越南语是一门重要的东方语言,由于其书写形式及本身的词汇构成与英语及汉语呈现相似的一面又具有自己的特点,使得越南语的词汇界定变得较为复杂。分词在越南语的语言研究与语言教学中是必不可少的重要环节。但长期一来,越南语分词的研究与介绍相对滞后。本文梳理了分词软件的分类,在此基础上介绍了越南语分词软件,并阐述了分词语料的应用。  相似文献   

2.
濒危语言典藏以抢救和长久保存濒危语言口语中所包含的声学、语言学以及文学、历史、传统文化等内涵的全部信息为目的,吕苏语作为一种无文字文献记录的濒危语言,对其口语语料典藏意义重大。吕苏语口语的汉语标注语料自动分词是后续建立高质量的吕苏语口语语料库和吕苏语典藏系统的基础性工作。目前对于吕苏语标注语料分词的研究几乎为零,本文首先对吕苏语特点进行了分析,同时将中文自动分词结巴方法应用到吕苏语汉语标注语料中,并针对结巴分词算法对吕苏语标注语料分词存在的误分词问题,提出了改进结巴算法。经过实验对比,改进结巴的分词方法准确率更高,提高了吕苏语汉语标注语料的分词效果。  相似文献   

3.
中文分词是自然语言处理的重要预处理操作。随着非结构化文本的大量产生,中文分词技术的研究尤为重要。结巴分词适用于中文分词,具有完整的技术路线,且Python语言提供了结巴分词接口。使用Python实现中文结巴分词算法简单,准确率较高,能够为自然语言处理提供重要保障。  相似文献   

4.
书面汉语自动分词综述   总被引:9,自引:0,他引:9  
汉语分词是汉语言处理有别于拼音文字语言处理的特点之一。本文回顾了汉语自动分词的研究历史;对现有的四种计算机自动分词方法进行了评介;介绍了当前的研究现状和存在的困难。  相似文献   

5.
该文介绍了彝文自动分词的技术.首先阐述了研究彝文自动分词的必要性和重要意义,然后介绍了彝文分词规范的原则及词表,讨论了彝文分词的算法,最后根据彝文的特性,设计了基于Java语言的彝文自动分词软件并得出了良好的分词结果.  相似文献   

6.
一直以来,汉语自动分词是公认的汉语信息处理瓶颈.反思现有汉语自动分词技术,发现均有隐含两大假设:语言是规律的、词具有确定边界.这与语言的复杂性、组合性、动态性、模糊性特征不符.本文采用一种基于隐马尔科夫模型(HMM)的算法,通过CHMM(层叠形马尔科夫模型)进行分词,再做分层,既增加了分词的准确性,又保证了分词的效率.  相似文献   

7.
在一些使用人数较少的语言中,缺少人工标注语料,研究在资源稀缺条件下的分词方法成了亟待解决的问题。本文研究了无监督的VE算法,以及最大匹配间隔标注算法,在此基础之上提出一种无监督分词方法与最大匹配方法相结合的分词方法,并在汉语语料上进行实验。该分词方法显著提高了最大匹配分词方法的分词效果,同时也优于当前最好的无监督分词结果。实验表明,该方法快速、有效,利用较小的资源获得了较好的分词效果。  相似文献   

8.
书面汉语自动分词技术与实现   总被引:1,自引:0,他引:1  
本文首先综述了书面汉语自动分词的若干方法及研究进展,并在此基础上,提出了一种基于知识的多遍扫描联想分词法,它提高了分词效率,比较成功的解决了汉语分词的歧义问题。该方法是一种实用的分词方法,是省长辅助DSS人机界面研究的子课题。该方法已在PC/XT机上用C语言实现。  相似文献   

9.
“中文分词十年回顾”一文中有“理解和分词孰先孰后”这一节,专门讨论NLPwin中文系统的分词。作为该系统的开发者之一,我觉得有必要对这个问题作一反省。
作为一门科学,语言学的目标之一是了解人类语言处理的机制。对我而言,计算语言学的最高境界是做出一套能反映人脑语言机制真实状况的, 具有心理学价值的电脑系统。从心理语言学的角度看,“理解和分词孰先孰后”这个问题是不存在的。人脑分析句子的过程显然是一个分词和理解互动的过程,理解依赖于分词,分词也依赖于理解。NLPwin中文系统的设计理念就是要反映人脑的这一分析过程。我们没有做一个专用于分词的系统,因为孤立的分词不是一种自然的人类语言行为。
从工程的角度看,分词和理解是完全可以分开的。对于工程来说,切分一个汉语的字串和切分任何其他字串没有太大的区别。我们可以把最好的、具有通用性的切分技术用于汉语分词。在此过程中我们不需要知道所切汉语字串所表达的意义。这里所要解决的主要是一个数学问题,而不是语言理解问题。把理解插入分词过程会大大增加计算的复杂度,其结果往往是得不偿失。所以如果我们的目的仅仅是分词,理解是没有必要的。  相似文献   

10.
汉语计算机自动分词知识   总被引:20,自引:3,他引:17  
汉语分词是汉语言计算机处理的一项不可缺少的工作。使用自动分词知识可以进一步提高自动切分精度, 满足高标准的需求。本文在[1][2][3]的研究基础上, 介绍了一些行之有效的自动分词知识。根据对48092 个汉字的语言材料统计结果表明统计材料分社会科学和自然科学两部分, 这些自动分词知识可以处理左右的歧义切分字段。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号