首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
对信息检索系统中常用的两种分词方法,即词表分词法和二元分词法,进行了分析比较。针对二元分词的分词结果冗余度大的问题,提出了改进方法,即经过预处理的二元分词方法。  相似文献   

2.
Web中文文本分词技术研究   总被引:22,自引:0,他引:22  
马玉春  宋瀚涛 《计算机应用》2004,24(4):134-135,155
中文自动分词技术是中文Web信息处理的基础。文中以最大匹配法(MM)为基础,充分考虑上下文(MMC),在内存中采用二分法进行分词匹配,有效地提高了分词的准确率和时效。并给出了评析报告,以及在生成Web文档中的关键词与自动摘要中的应用。  相似文献   

3.
中文自动分词系统的设计模型   总被引:9,自引:1,他引:9  
介绍了常用的中文自动分词方法,在此基础上,给出了中文自动分词系统的理论模型,指出评价自动分词系统优劣的性能指标,并对分词系统的发展作了探讨。  相似文献   

4.
运用改进的分词方法进行外国译名识别的研究   总被引:2,自引:0,他引:2  
该文首先介绍了基于词典的分词算法的语言模型和一种基于词典分词算法:最大词频分词法。分析了基于词典的分词算法的语言模型,指出其无法处理未登录词的原因。针对此原因,提出了引入动态词典的方法,将最大词频分词算法和局部频率法相结合以解决未登录词中译名识别的问题。最后,给出了一个系统实现。  相似文献   

5.
字典与统计相结合的中文分词方法   总被引:15,自引:0,他引:15  
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DSfenci的分全率达99.52%,准确率达98.52%.  相似文献   

6.
自动分词中的歧义处理   总被引:3,自引:0,他引:3  
从自动分词中歧义产生的根源上对歧义进行了新的分类,并给出了处理每一类歧义的方法,提出自动分词中的歧义研究应集中在对第二类歧义的处理上。  相似文献   

7.
并行分词方法的研究   总被引:10,自引:0,他引:10  
目前,中文分词方法都是属于串行分词方法。本文提出了一种并行分词方法,该方法是根据多级内码理论设计的,它大大提高了分词的速度,并行分词方法还便于设计成集成电路。  相似文献   

8.
介绍一种基于词的切分属性的分词算法。这种方法在最大匹配法基础上,根据大量的真实语料中出现的语言现象,把汉语中的词按其在分词意义下的特性进行分类,对每一类词确定一组规则,同时利用词的自然属性进行歧义难点处理,使分词算法更接近于实用的目的。  相似文献   

9.
基于短语结构文法的分词研究   总被引:6,自引:0,他引:6  
本文在分析现有各种分词年法的基础上, 遵循自然语言理解的层次模型, 着重对短语结构文法及其形式化描述进行了探讨。提出了汉语自动分词在短语层的理解模型及短语层分词语义相关原则, 最后给出了短语结构分词法法的机器实现。实验结果表明, PSG法在提高分词精度上具有相当好的效果。  相似文献   

10.
黄建中  王肖雷 《计算机工程》2004,30(12):371-372
针对基于统计模型的中分词系统,从系统实现的角度探讨了主流的相关技术,涉及:n—gram语言模型,语科库,统计模型的参数估计及参数平滑等概念,重点对Katz平滑算法作了改进。片在分词系统原型中实现了该算法。  相似文献   

11.
分词识别和歧义消除是影响信息检索系统准确度的重要因素,该文提出了一种基于语法和语义的使用约束矩阵的中文分词算法。该算法建立在语法和句法的基础上,从语境角度分析歧义字段,提高分词准确率。系统可以将输入的连续汉字串进行分词处理,输出分割后的汉语词串,并得到一个词典。再用《现代汉语语法信息词典》进行处理,实验结果显示分词准确率能提高10%左右。  相似文献   

12.
中文信息处理中自动分词技术的研究与展望   总被引:22,自引:0,他引:22  
汉语自动分词是中文信息处理的关键技术,已经成为中文信息处理发展的瓶颈。文章介绍了当前自动分词技术的研究状况,对各种分词算法进行了介绍,并对各种算法进行了比较和讨论。最后,对汉语自动分词技术的发展进行了展望。  相似文献   

13.
濒危语言典藏以抢救和长久保存濒危语言口语中所包含的声学、语言学以及文学、历史、传统文化等内涵的全部信息为目的,吕苏语作为一种无文字文献记录的濒危语言,对其口语语料典藏意义重大。吕苏语口语的汉语标注语料自动分词是后续建立高质量的吕苏语口语语料库和吕苏语典藏系统的基础性工作。目前对于吕苏语标注语料分词的研究几乎为零,本文首先对吕苏语特点进行了分析,同时将中文自动分词结巴方法应用到吕苏语汉语标注语料中,并针对结巴分词算法对吕苏语标注语料分词存在的误分词问题,提出了改进结巴算法。经过实验对比,改进结巴的分词方法准确率更高,提高了吕苏语汉语标注语料的分词效果。  相似文献   

14.
在机器翻译、自动分类、搜索引擎等技术中,彝文分词具有很重要的作用,同时也是彝文信息处理至关重要的环节.本文以当前的彝文分词技术为基础,通过构建彝文词库,并用彝文网页获取平台抓取彝文网页文本,结合彝文特有的优势,从分词词库、分词算法、结构流程、系统界面和模块、实验结果等方面进行了详细的分析,最终实现彝文网页文本分词平台.最后的结果表明,本平台分词准确率较高,实用性和通用性也较好.  相似文献   

15.
一种基于语境的中文分词方法研究   总被引:4,自引:0,他引:4  
汉语不同于英语,词之间没有间隔标记.而汉语分词是文本分析的第一步,且存在歧义切分,因此分词问题成为汉语分析的首要难题,通过中文切分过程的本质分析,推导并提出基于马尔可夫链的语境中文切分理论.进而提出一种语境中文分词方法.该方法建立在词法和句法基础上,从语境角度分析歧义字段,提高分词准确率.  相似文献   

16.
关白 《中文信息学报》2010,24(3):124-129
分词单位作为分词系统的基本单位,是研究分词理论的基础,要确立分词单位就必须有相应的理论体系。该文结合藏文已有的语法著作和汉语语义分类体系建立与分词单位相应的词类划分体系;参照《资讯处理用中文分词规范》和《信息处理用现代汉语分词规范》等标准,从藏文文本语料出发,建立切分分词单位的九项基本原则和三项辅助原则,以此词类划分体系和切分原则为理论依据对藏文的分词单位进行详细说明。  相似文献   

17.
该文介绍了以《淮南子》为文本的上古汉语分词及词性标注语料库及其构建过程。该文采取了自动分词与词性标注并结合人工校正的方法构建该语料库,其中自动过程使用领域适应方法优化标注模型,在分词和词性标注上均显著提升了标注性能。分析了上古汉语的词汇特点,并以此为基础描述了一些显式的词汇形态特征,将其运用于我们的自动分词及词性标注中,特别对词性标注系统带来了有效帮助。总结并分析了自动分词和词性标注中出现的错误,最后描述了整个语料库的词汇和词性分布特点。提出的方法在《淮南子》的标注过程中得到了验证,为日后扩展到其他古汉语资源提供了参考。同时,基于该文工作得到的《淮南子》语料库也为日后的古汉语研究提供了有益的资源。  相似文献   

18.
文语转换系统中基于语料的汉语自动分词研究   总被引:9,自引:0,他引:9  
基于一个实际的文语转换系统,介绍了经的一些处理方法,采用了一种改进的最大匹配法,可以切分出所有的交集歧义,提出了一基于统计模型的算法来处理其中的多交集歧义的字段,并用穷举法和一睦简单的规则相结合的方法从实用角度解决多音字的异读问题以及中文姓名的自动识别方法,解决了汉语切分歧义、多音词处理、,中文姓名的自动识别问题,达到实现一文语转换的。  相似文献   

19.
设计一种组合型的分词机制:基于字典的双向最大匹配,基于字标注的中文分词方法和隐马尔科夫的分词方式。通过实验的结果比较,表明该种组合型的分词方法能够较好地解决中文歧义并发现新的登录词。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号