首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
回溯正向匹配中文分词算法   总被引:3,自引:0,他引:3       下载免费PDF全文
在最大匹配法(The Maximum Matching Method)的基础上,提出了一种回溯正向匹配(The Backtracking Matching Method)的中文分词方法。该方法首先对待切文本进行预处理,将文本分割成长度较短的细粒度文本;利用正向匹配、回溯匹配和尾词匹配来有效发现歧义字段;利用长词优先兼顾2词簇的方式对交集型歧义字段进行切分。最后对该算法进行的定性分析说明了该方法的先进性,从随机抽取大量语料实验结果上证明了该方法的有效性。  相似文献   

2.
本文提出了一种通过有向图和统计加规则的多层过滤方法来有效解决汉语分词过程中的交集型歧义切分问题,该方法大大提高了切分的正确率。经过六万五千字的开放语料测试,我们统计了其对交集型歧义字段的切分结果,发现该方法对交集型歧义字段的切分正确率为98.43%,以上数据表明该方法在解决汉语交集型歧义字段的问题时是行之有效的。  相似文献   

3.
讨论一种消除中文匹配过程中所产生的交集型歧义的方法。该方法通过词典切分方法对中文文本进行切分,找出文本中的词语,作为理解中文的前提。对于匹配结果中出现的交集型歧义,通过计算匹配词语与其交集词语各自字符之间的互信息值来消除,互信息值较大的词说明该字符组合的可能性比较大。最后给出一个实际的消除歧义的例子,说明该方法的实用性。  相似文献   

4.
在正向最大匹配法的基础上,提出了一种便于在网络搜索引擎上使用的消除歧义的方法.通过利用单字词和二字词的高频特性以及不同词条的词频特点,再加上长词优先的原则,来消除在分词中可能会出现的交集型歧义和组合型歧义.实验结果表明:改进的回溯算法,比最大正向匹配法和回溯法的消歧更加有效.对高频交集型歧义字段取样分析结果表明,改进的...  相似文献   

5.
改进的正向最大匹配分词算法   总被引:2,自引:1,他引:1  
为了降低正向最大匹配分词算法的切分错误率,分析了产生这个错误率的原因,提出了一种改进的正向最大匹配分词算法,即增加一个交集型歧义字段处理模块.该方法对待切丈本进行预处理,在传统正向最大匹配的过程中,调用交集型歧义字段处理模块,该模块主要是在每一次正向匹配后进行回溯匹配,即通过检测当前处理词条的尾字和下一字的成词情况,分别计算该尾字和不含该字的当前处理词条的互信息与尾字和下一字的互信息,通过比较两者的互信息大小来决定切分,最后对分词碎片进行了处理.通过对随机抽取的语料进行测试,结果表明该方法是有效的.  相似文献   

6.
自动分词技术的瓶颈是切分歧义,切分歧义可分为交集型切分歧义和组合型切分歧义。以组合型歧义字段所在句子为研究对象,考察歧义字段不同切分方式所得结果与其前后搭配所得词在全文中的支持度,构造从合或从分切分支持度度量因子,依据该因子消除组合型歧义。通过样例说明和实验验证该方法可行并优于现有技术。  相似文献   

7.
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。其中歧义字段切分是中文自动分词研究中的一个“拦路虎”,是影响分词系统切分精度的主要因素。能够正确切分某一类歧义字段的知识称为分词知识,所有分词知识的集合称为知识库或规则库。本文通过建立交集型歧义字段切分知识库,并采用知识学习的方法来丰富系统的知识,充分利用了知识库中积累的词的二元语法关系、语素构词、句法关系以及上下文等信息,提高了交集型歧义字段的切分精度。  相似文献   

8.
高频最大交集型歧义切分字段在汉语自动分词中的作用   总被引:41,自引:9,他引:41  
交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强的覆盖能力及稳定性:前4,619个的覆盖率为59.20% ,且覆盖率受领域变化的影响不大。而其中4,279个为伪歧义型,覆盖率高达53.35%。根据以上分析,我们提出了一种基于记忆的、高频最大交集型歧义切分字段的处理策略,可有效改善实用型非受限汉语自动分词系统的精度。  相似文献   

9.
汉语文本中交集型切分歧义的分类处理   总被引:2,自引:0,他引:2  
自动分词是中文信息处理的基本问题,交集型歧义字段的切分又是中文分词的难点.本文把交集型歧义字段按其宏结构分类,再依据本文提出的4条切分原则,使用歧义字段的结构信息和语法规则对不同类型的交集字段分别处理,提高了分词的准确性.该分词方法已作为中文网页索引和检索工具被用于网络搜索引擎中.实验效果表明,这一分词系统能够处理某些其它分词系统不能正确划分的实例.  相似文献   

10.
刘健  张维明 《计算机应用研究》2008,25(11):3259-3261
中文分词中,交集型歧义检测方法采用的双向最大匹配法与全切分方法存在着各自的弊病,无法满足大规模数据的精确处理。为此,提出了一种快速的交集型歧义检测方法,引入次长词进行检测,能高效准确地检测出中文文本中的交集型歧义。经实验验证,该方法在精度与速度两方面均能满足大规模语料的处理。  相似文献   

11.
通过对越南语词法特点的研究,把越南语的基本特征融入到条件随机场中(Condition random fields,CRFs),提出了一种基于CRFs和歧义模型的越南语分词方法。通过机器标注、人工校对的方式获取了25 981条越南语分词语料作为CRFs的训练语料。越南语中交叉歧义广泛分布在句子中,为了克服交叉歧义的影响,通过词典的正向和逆向匹配算法从训练语料中抽取了5 377条歧义片段,并通过最大熵模型训练得到一个歧义模型,并融入到分词模型中。把训练语料均分为10份做交叉验证实验,分词准确率达到了96.55%。与已有越南语分词工具VnTokenizer比较,实验结果表明该方法提高了越南语分词的准确率、召回率和F值。  相似文献   

12.
基于标记的规则统计模型与未登录词识别算法   总被引:8,自引:0,他引:8  
该文针对小型词库,提出了基于规则统计模型的消歧方法和识别未登录词的词加权算法。通过大量语料库学习获取歧义高频字,作为歧义标记,利用规则统计模型对标记的上下文信息分类处理,剩下的部分进行正向或逆向动态最大匹配,对连续单字串使用词加权算法来判断其是否为未登录多字词。经过实验测试,该系统的准确率为98.88%,召回率为98.32%。  相似文献   

13.
短文本匹配是自然语言处理领域中的一个核心问题,可应用于信息检索、问答系统、复述问题等任务.过去的工作大多在提取文本特征时只考虑文本内部信息,忽略了两个文本之间的交互信息,或者仅进行单层次交互.针对以上问题,提出一种基于Transformer改进的短文本匹配模型ISTM.ISTM模型以DSSM为基本架构,利用BERT模型对文本进行向量化表示,解决Word2Vec一词多义的问题,使用Transformer编码器对文本进行特征提取,获取文本内部信息,并考虑两个文本之间的多层次交互信息,最后由拼接向量推理计算出两个文本之间的语义匹配度.实验表明,相比经典深度短文本匹配模型,本文提出的ISTM模型在LCQMC中文数据集上表现出了更好的效果.  相似文献   

14.
知识库问答任务是自然语言处理领域中的研究热点之一,目前国内外学者对知识库问答方法的研究大多数是基于英文数据,基于中文数据的研究非常少。由于中文存在语言多变性、语法不明确性、语言歧义性等特点,导致很多英文知识库问答研究方法很难应用于中文数据。针对以上问题,该文提出一种基于信息匹配的中文知识库问答研究方法,探索方法在中文数据上的效果。首先对问题进行主语实体识别和属性值识别;其次将问句中的实体链接到知识库中的实体,使用逻辑回归对候选实体进行筛选;再次抽取其两跳内关系作为候选查询路径,将候选查询路径和问题进行相似度匹配得到匹配度最高的候选路径;最后使用实体拼接来得到多实体情况的查询路径,查询知识库获得最终答案。该方法在CCKS2019 CKBQA测试集上的F值达到了75.6%。  相似文献   

15.
Visual Prolog截断机制对回溯的作用机理   总被引:4,自引:0,他引:4  
雷英杰  华继学  徐彤  狄博 《计算机工程》2005,31(18):183-185
回溯是一种获得目标所有可能解的良好方法.然而不恰当地使用回溯,可能导致系统效率降低,时空开销增大,因此必须设置相应机制,仔细控制回溯过程.Visual Prolog的控制谓词,即失败谓词fail和否定谓词not,与截断机制,包括静态截断机制和动态截断机制,构成了完整的目标搜索求解控制机制,可以实现对搜索过程的仔细控制,减少不必要的回溯.该文在考察Visual Prolog回溯机制和截断机制的基础上,通过实例,对其静态截断机制和动态截断机制进行了详细分析,从而揭示回溯机制和截断机制的本质特性和应用机理.  相似文献   

16.
针对口杯酒瓶盖对激光打码角度的特殊要求,研究一种口杯酒瓶盖旋转角度测量方法,该方法提出使用几何法与模板匹配法两种方法测量口杯酒拉环及中心文字与水平线的角度。其中,几何法通过连通域搜索和计算重心,定位圆环感兴趣区域,基于圆环被拉环切割部分的特征,得到凹凸方向的特征加强区域,有效计算出口杯酒瓶盖拉环与水平线之间的角度。模板匹配法通过分析在理想情况下口杯酒的文字字样,得到文字字样轮廓,平滑轮廓,并以此作为匹配时的形状模型。匹配过程中,对新图像查找形状模型,得出口杯酒中心文字与水平线的角度。该测量方法高速、准确、稳定,满足高速生产线的实时在线检测需求,解决了现有的口杯酒瓶盖激光打码的问题。  相似文献   

17.
中文粗分和歧义消解是中文分词的两大基本过程。通过引入广义词条和诱导词集,在最大匹配算法基础上提出一种中文分词的粗分方法,以最长广义词匹配为原则进行中文分词,利用诱导词集实现交叉型歧义识别。在保证快速准确切分无歧义汉语语句的同时,100%检测并标记有歧义汉语语句中的交叉型歧义,最大程度上简化后续歧义消解过程。通过对含有160万汉字1998年1月人民日报语料测试的结果证明了算法速度、歧义词准确率以及粗分召回率的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号