首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 390 毫秒
1.
近年来基于字的词位标注方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为汉语分词的主要技术路线。该方法中特征模板选择至关重要,采用四词位标注集,使用条件随机场模型进一步研究基于字的词位标注汉语分词技术,在第三届和第四届国际汉语分词评测Bakeoff语料上进行封闭测试,并对比了不同特征模板集对分词性能的影响。实验表明采用的特征模板集:TMPT-10′较传统的特征模板集分词性能更好。  相似文献   

2.
汉语自动分词研究综述   总被引:12,自引:0,他引:12  
本文对汉语自动分词的方法进行了概述,并在考察分词精度和分词知识的基础上,提出了一种改进的机械分词方法  相似文献   

3.
汉语分词技术综述   总被引:15,自引:0,他引:15  
分词是中文信息处理的基础,在汉语文本分类、文献标引、智能检索、自然语言理解与处理等应用中,首先都要对中文文本进行分词处理。从分词的基本理论出发,对近年来的汉语分词的研究方法与成果进行了综合论述,分析了现有分词方法的特点,提出了把神经网络和专家系统结合起来建立集成式汉语自动分词系统的构想。  相似文献   

4.
本文提出了一种基于汉语语法知识的汉语拼音自动分词的方法。文章描述了自动分词时,多义切分检测与处理策略,以及利用语法和语义知识实现多义切分纠错方法。本文方法已经在拼音汉字转换系统中应用。实际情况表明,本文提出的汉语拼音自动分词方法是可行的。  相似文献   

5.
汉语分词作为中文信息处理的首要环节,其精确度对后续步骤的准确度和处理速度成逐级放大性影响.如何提高分词的准确度和处理速度成为近年研究的重点.采用条件随机场模型进行汉语分词,通过定量分析CRF工具包训练参数f,研究减少特征对分词准确度以及模型大小的影响程度,实验分别在国际汉语分词评测Bakeoff2005提供的北京大学和微软亚洲研究院两个语料上进行封闭测试,并对比采用不同模板时增加f参数值对分词性能的影响,最终得出实验结果:随着f参数值的增加,分词的准确度和生成的模型大小成正比,且F值减小的程度相对训练生成模型大小的减小程度要小得多.  相似文献   

6.
汉语分词是汉语处理与拼音文字语言处理的一个不同点.本文回顾了汉语分词研究的发展,对现有的四种汉语分词方法进行了评述,介绍了当前的研究现状和存在的困难,并提出了一种基于期望的汉语分词方法.这种方法把分词与理解同步进行.基于这种方法的汉语分词模型是由预处理模块、词头处理模块、期望分词模块、句法分析模块、语义分析模块、学习模块以及知识库组成.  相似文献   

7.
词性标注作为汉语自动分词以至中文信息处理领域比较关键的问题之一,是该领域的研究难点也是研究重点,对兼类词词性标注的正确率严重影响着词性标注的质量。在基于规则的词性标注的基础上,提出了一种基于规则优先级的词性标注方法,即对每条词性标注规则加上优先级,并在标注算法中通过对优先级进行控制来完成兼类词的词性标注。并用大规模语料对该方法做了试验,结果表明其词性标注正确率可达到96.4%。  相似文献   

8.
汉语自动分词是中文信息处理的前提,如何提高分词效率是中文信息处理技术面临的一个主要问题。基于词典和基于统计的分词方法是现有分词技术的主要方法,但是前者无法处理歧义字段,后者需要大量的词频计算耗费时间。本文提出优化最大匹配与统计结合的分词方法,首先提出优化最大匹配算法,在此基础上提出了规则判断与信息量统计两种消歧策略。然后,给出了优化最大匹配与统计结合的分词算法,提高了分词的效率。最后,基于分词算法实现中文分词系统,并通过实验对算法进行了分析和验证。  相似文献   

9.
基于CRF模型的组合型歧义消解研究   总被引:2,自引:0,他引:2  
组合型歧义切分是汉语自动分词的难点之一.为此,利用CRF(条件随机场)模型,以歧义字段的上下文的词和词性建立特征模板,进行歧义消解研究.以1998年半年《人民日报》为语料,对常用的10个组合歧义字段进行消歧,平均消歧正确率达到96.35%,取得了良好的效果.实验表明,利用该模型能有效提高消歧正确率.  相似文献   

10.
为解决服务组合技术中本体实例的自动生成问题,建立了一个基于分词系统、面向服务组合领域的有限汉语语法学习系统(LCGAS);同时为将学习系统的学习结果表示为与本体相一致的形式,提出一种有限汉语语法的描述逻辑表示方法. 性能测试结果表明,系统在句法分析时具有较高的成功率,与提出的表示方法相结合,能较好地解决本体实例的自动生成问题.  相似文献   

11.
自动分词是中文信息处理的关键步骤。由于具有结构简单、易于实现和开发周期短等优点,基于词典的分词方法被广泛应用。结合中文多字词数量少,使用频度低的特点,设计实现了一种新的词典机制,在此基础上,把分治策略引入到分词中,提出了一种新的分词算法,幷对该算法进行了理论分析和实验验证。  相似文献   

12.
最大概率分词问题及其解法   总被引:10,自引:0,他引:10  
提出了一种新的汉族自动分词算法,该算法运用人工智能中的问题求解技术,先将汉族句子的切分问题归约为若干字段的切分问题,再用启发式状态空间搜索技术将每个字段分别转换为概率最大的词序列。  相似文献   

13.
基于字、词、词组的中文搜索引擎分词系统   总被引:2,自引:0,他引:2  
分析了全文检索系统中常用的基于字表和基于词表的中文分词方法的优缺点,提出了基于字、词、词组混合模型的中文搜索引擎分词系统;并利用广义语词概念,设计了分词词典,改进了最大匹配分词算法(MM);最后把分词系统应用于全文检索中。  相似文献   

14.
摘要是对文档内容的概括,在信息检索中起着重要的作用。分析了机械式自动摘要的局限性,提出一种模仿人工进行自动摘要的方法;探讨了简单的中文自动摘要系统的结构模型,在此基础上对模型中的分词模块和文摘句的提取模块进行了分析。最后,结合实例对系统进行了进一步地讨论。结果表明:该系统能够达到较好的质量和效率。  相似文献   

15.
给出了一个词库维护及检索系统,它采用基于PATRICIA tree的分词词典机制及灵活的词库维护及检索方法,不仅适用于传统的机械切分,更适合于串行和并行全切分.该词库系统已在一个全切分系统应用.  相似文献   

16.
基于双向匹配法和特征选择算法的中文分词技术研究   总被引:1,自引:0,他引:1  
传统的双向匹配算法虽然能够发现歧义现象,但是却不能解决歧义问题.为了更好地进行歧义消解,提出了一种基于双向匹配法和特征选择算法的中文分词技术,通过积累的语料库,设计并实现了一个基于两种方法的分词系统.该系统的实验结果表明,基于双向匹配法和特征选择算法的中文分词技术比传统方法的效果要好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号