首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 57 毫秒
1.
一种高效的中文电子词表数据结构   总被引:20,自引:1,他引:20  
在分析中文字编码体系,中文词一些特点的基础上,文中提出了一种新的中文电子词表数据结构,并讨论了利用首字Hash加二分查找的数据查找算法以及相关的数据更新,删除和插入算法。理论分析和试验结果表明,利用文中方法构建的中文电子词表访问效率远优于现有的其它方法。  相似文献   

2.
设计一种组合型的分词机制:基于字典的双向最大匹配,基于字标注的中文分词方法和隐马尔科夫的分词方式。通过实验的结果比较,表明该种组合型的分词方法能够较好地解决中文歧义并发现新的登录词。  相似文献   

3.
蔡蕊 《福建电脑》2010,26(2):69-70
在分析已有的中文分词算法的基础上,利用改进的词典结构,提出一种新的基于Hash的中文分词算法。理论和实验证明,改进的算法可以进一步提高分词的效率。  相似文献   

4.
一种改进的MM分词算法   总被引:28,自引:0,他引:28  
本文首先提出一种对中文句子进行分词预处理的方法,在预处理过程中就能完成分词过程中所有的数据库访问操作,这种方法可以不加修改地应用于所有机械分词算法以及消除歧义,然后在预处理的基础上实现一种改进的MM法,更加密全地遵照“长词优先”的原则,使分词系统在机械分词阶段能有比MM法更好的效果。  相似文献   

5.
一种改进的中文分词正向最大匹配算法   总被引:1,自引:0,他引:1  
正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端.针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法.与此相配合,设计了一种词典结构,使之能够有效地支持改进的算法.改进的算法与一般正向最大匹配算法相比大大减少了匹配次数,分析表明中文分词的速度和效率有了很大提高.  相似文献   

6.
中文分词是计算机自动处理文本的基础。通过比较常用的机械分词算法的优缺点,提出了分层逐字二分算法,综合了TRIE树和逐字二分分词的特点,以求通过较小的开销来实现较快的匹配速度。实验结果表明,该算法在综合性能上有显著提高。  相似文献   

7.
基于Web文本挖掘中的一种中文分词算法研究   总被引:1,自引:0,他引:1  
基于Web文本挖掘问题,提出了一种改进的索引结构的词库组织体系及基于该词典结构的中文分词算法。同时,加强消除歧义方面的处理,分词精度有所提高。试验结果表明,采用该方法可较大提高中文文本的切词速度及信息的查全查准率。  相似文献   

8.
全二分最大匹配快速分词算法   总被引:29,自引:1,他引:29  
分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分,对于诸如搜索引擎等海量信息处理的应用,分词的速度是至关重要的。该文在对中文编码体系和中文分词的算法进行研究的基础上,提出一种新的分词词典,基于这种分词设计了一种快速的分词算法,给出了算法的实现过程。  相似文献   

9.
首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述.接着论述了EM算法用于训练分词语言模型的可能性和局限性,为了解决EM算法严重依赖初始化条件的问题,用无监督训练方法建立概率模型,有效地解决了基于EM算法中文分词时可能存在的局部极值问题,提高分词精度.  相似文献   

10.
对汉语的特点和分词概念作了简单介绍,详细说明了常用的分词算法,在此基础上,提出了一种改进的Ⅲ中文分词算法。该算法兼顾了最大正向匹配法(MM)和逆向最大匹配法(RMM)的优点,克服他们的不足,使得切分准确率和分词效率均有明显的提高,是一种比较实用的分词算法。实验也进一步证明,该算法能有效地提高切分准确率和分词效率。  相似文献   

11.
自动分词技术的瓶颈是切分歧义,切分歧义可分为交集型切分歧义和组合型切分歧义。以组合型歧义字段所在句子为研究对象,考察歧义字段不同切分方式所得结果与其前后搭配所得词在全文中的支持度,构造从合或从分切分支持度度量因子,依据该因子消除组合型歧义。通过样例说明和实验验证该方法可行并优于现有技术。  相似文献   

12.
提出了一种新的汉语统计模型CNET,在此基础上提出了一种汉语无词典自动分词算法.该算法首先学习要进行处理的汉语语料,构建CNET,然后根据学习到的知识再去对原始语料进行分词.实验结果表明,该算法分词正确率在70%以上.  相似文献   

13.
汉语词语边界自动划分的模型与算法   总被引:9,自引:1,他引:9  
在引入词形和汉字结合点等概念基础上,文中分别描述了一个基于字串构词能力的词形模型和一个基于词语内部、外部汉字结合度的汉字结合点模型,并采用线性插值方法 两种模型融合于一体进行汉词语边界划分。在分析汉语切分候选择空间的基础上,文中还给出了相应的优化搜索算法。与一般的统计方法相比,文中方法的参数可直接从未经加工粗语料中得到,具有较强的适应能力,初步试验表明该方法是有效和可靠的。  相似文献   

14.
本文在对文献[1]中提出的字符及图形分割算法Logical Levd Technique(LLT)深入研究的基础上,提出了一种改进的LLT算法(ILLT).ILLT算法能同时对图像中两种不同颜色的字符进行分割,且对笔划宽度的大小及均匀程度要求不严.此外,ILLT算法保持了LLT算法速度快的优点.将ILLT算法应用在多种实际图像的字符及图形分割中,取得了满意的效果.  相似文献   

15.
文语转换系统中基于语料的汉语自动分词研究   总被引:9,自引:0,他引:9  
基于一个实际的文语转换系统,介绍了经的一些处理方法,采用了一种改进的最大匹配法,可以切分出所有的交集歧义,提出了一基于统计模型的算法来处理其中的多交集歧义的字段,并用穷举法和一睦简单的规则相结合的方法从实用角度解决多音字的异读问题以及中文姓名的自动识别方法,解决了汉语切分歧义、多音词处理、,中文姓名的自动识别问题,达到实现一文语转换的。  相似文献   

16.
利用汉字二元语法关系解决汉语自动分词中的交集型歧义   总被引:52,自引:2,他引:52  
本文提出了一种利用句内相邻之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法。初步的实验结果显示,可以正确处理90.3%的交集字段。  相似文献   

17.
距骨的交互式快速图像分割算法   总被引:2,自引:0,他引:2  
距骨的图像分割是对其进行三维可视化及运动学研究的基础.提出一种距骨的交互式图像分割算法,由三部分组成:(1)提出一种改进的迭代阈值法,从一组足部CT图像序列中分割出所有骨骼.(2)提出一种加速的live-wire分割算法,断开距骨与其他骨骼的连接线,该方法与原Live-wire算法相比,代价计算量大为减小且缩短了最优路径搜索时间.(3)用形态学操作提取距骨.实验结果表明,该算法能以较少的交互次数快速地进行距骨图像分割,也可用于其他骨骼的分割.  相似文献   

18.
针对目标与背景颜色接近,目标区域粘连度较高难以分割的情况,提出了一种基于阈值处理和分水岭分割相结合的改进的圆形目标图像分割算法。提及的算法分成两个步骤:第一步采用了3次阈值处理相结合的改进算法,较好地完成了目标和背景颜色接近情况下的目标提取;第二步采用了改进的分水岭分割算法,改善了分水岭分割之前的距离变换和求种子点过程,较好地实现了粘连度较高情况下的目标区域分割。实验结果表明该方法对圆形粘连目标的分割有较好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号