首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
基于规则挖掘和Naive Bayes方法的组合型歧义字段切分   总被引:1,自引:0,他引:1  
组合型歧义字段切分是中文自动分词的难点之一。在对现有方法进行深入分析的基础上,提出了一种新的切分算法。该算法自动从训练语料中挖掘词语搭配规则和语法规则,基于这些规则和Naive Bayes模型综合决策进行组合型歧义字段切分。充分的实验表明,相对于文献中的研究结果,该算法对组合型歧义字段切分的准确率提高了大约8%。  相似文献   

2.
基于规则挖掘和Na(l)ve Bayes方法的组合型歧义字段切分   总被引:1,自引:0,他引:1  
组合型歧义字段切分是中文自动分词的难点之一.在对现有方法进行深入分析的基础上,提出了一种新的切分算法.该算法自动从训练语料中挖掘词语搭配规则和语法规则,基于这些规则和Nave Bayes模型综合决策进行组合型歧义字段切分.充分的实验表明,相对于文献中的研究结果,该算法对组合型歧义字段切分的准确率提高了大约8%.  相似文献   

3.
组合型歧义切分字段一直是汉语自动分词的难点.用人工校验后的分词语料提供的搭配实例作为组合歧义字段的初始搭配知识,提出使用搭配统计表的多元最大对数似然比进行消歧;继而根据实验确定了歧义字段的上下文窗口、窗口位置区分、权值估计等要素;在此基础上采用自组织方法自动扩充搭配集,使消歧信息趋于稳定;最后,对提出的方法进行了实验,实验表明,该算法能有效提高消歧准确率.  相似文献   

4.
基于语境信息的汉语组合型歧义消歧方法   总被引:2,自引:0,他引:2  
组合型歧义切分字段一直是汉语自动分词的难点,难点在于消歧依赖其上下文语境信息。本文采集、统计了组合型歧义字段的前后语境信息,应用对数似然比建立了语境计算模型,并考虑了语境信息的窗口大小、位置和频次对消歧的影响而设计了权值计算公式。在此基础上,1.使用语境信息中对数似然比的最大值进行消歧;2.使用语境信息中合、分两种情况下各自的对数似然比之和,取值大者进行消歧。对高频出现的14个组合型分词歧义进行实验,前者的平均准确率为84.93%,后者的平均准确率为95.60%。实验证明使用语境信息之和对消解组合型分词歧义具有良好效果。  相似文献   

5.
汉语分词中组合歧义字段的研究   总被引:6,自引:0,他引:6  
汉语自动分词中组合歧义是难点问题,难在两点: 组合歧义字段的发现和歧义的消解。本文研究了组合歧义字段在切开与不切时的词性变化规律,提出了一种新的组合歧义字段自动采集方法,实验结果表明该方法可以有效地自动发现组合歧义字段,在1998年1月《人民日报》中就检测到400多个组合歧义字段,远大于常规方法检测到的歧义字段数目。之后利用最大熵模型对60个组合歧义字段进行消歧,考察了六种特征及其组合对消歧性能的影响,消歧的平均准确度达88.05%。  相似文献   

6.
DENG Fan  YU Bin 《微机发展》2008,18(6):107-110
针对中文中歧义字段对中文处理及理解带来的诸多问题提出了一种基于自然语言理解的中文汉字歧义消除算法。对于交集型歧义和组合型歧义,利用《知网》为主要语义资源,以知识图知识表示方法,通过提出的字段消歧算法,对歧义字段以及上下文的语义进行计算,从而选出正确的句子切分方案,达到消除歧义的目的。经过实验数据表明本算法提高了中文歧义字段歧义切分的正确率。  相似文献   

7.
针对中文中歧义字段对中文处理及理解带来的诸多问题提出了一种基于自然语言理解的中文汉字歧义消除算法.对于交集型歧义和组合型歧义,利用<知网>为主要语义资源,以知识图知识表示方法,通过提出的字段消歧算法,对歧义字段以及上下文的语义进行计算,从而选出正确的句子切分方案,达到消除歧义的目的.经过实验数据表明本算法提高了中文歧义字段歧义切分的正确率.  相似文献   

8.
组合歧义消解是分词中的关键问题之一,直接影响到分词的准确率。为了解决越南语组合歧义对分词的影响问题,结合越南语组合型词的特点,提出了一种基于集成学习的越南语组合歧义消解方法。该方法首先通过人工选取越南语组合歧义词,构建出越南语组合歧义字段库,对越南语语料与越南语组合词词典进行匹配,抽取出越南语组合歧义字段;其次,采用三类分类器引入越南语词频特征和上下文信息,构建三类分类器消解模型,得到三类分类器消解结果;最后,计算出各分类器权值,通过阈值对越南语组合歧义进行最终分类。实验表明,所提方法的正确率达到了83.32%,与消歧结果最好的单个分类器相比准确率提高了5.81%。  相似文献   

9.
现代汉语通用分词系统中歧义切分的实用技术   总被引:8,自引:0,他引:8  
歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则 例外”的实用消歧策略·对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%·  相似文献   

10.
基于混合模型的交集型歧义消歧策略   总被引:1,自引:0,他引:1       下载免费PDF全文
针对交集型歧义这一汉语分词中的难点问题,提出了一种规则和统计相结合的交集型歧义消歧模型。首先,根据标注语料库,通过基于错误驱动的学习思想,获取交集型歧义消歧规则库,同时,利用统计工具,构建N-Gram统计语言模型;然后,采用正向/逆向最大匹配方法和消歧规则库探测发现交集型歧义字段;最后,通过消歧规则库和评分函数进行交集型歧义的消歧处理。这种基于混合模型的方法可以探测到更多的交集型歧义字段,并且结合了规则方法和统计方法在处理交集型歧义上的优势。实验表明,这种方法提高了交集型歧义处理的精度,为解决交集型歧义提供了一种新的思路。  相似文献   

11.
自动分词技术的瓶颈是切分歧义,切分歧义可分为交集型切分歧义和组合型切分歧义。以组合型歧义字段所在句子为研究对象,考察歧义字段不同切分方式所得结果与其前后搭配所得词在全文中的支持度,构造从合或从分切分支持度度量因子,依据该因子消除组合型歧义。通过样例说明和实验验证该方法可行并优于现有技术。  相似文献   

12.
自动分词作为自然语言处理基础性的研究课题,一直被学术界所关注,随着藏语自然语言处理技术研究的不断深入,藏文分词也面临越来越多的挑战。该文通过分析藏文自动分词研究现状,提出基于词性约束的藏文分词策略与算法。相对于传统方法,该方法不仅能有效地预防和处理各类歧义现象,而且在藏文未登录词处理方面有较好表现。  相似文献   

13.
中文自动分词是web文本挖掘以及其它中文信息处理应用领域的基础.蓬勃发展的中文信息处理应用对分词技术提出了更高的要求.提出了一种新的分词算法FPLS,该算法用拼音首字母作为词语表一级索引,词语的字数为二级索引构造分词词典,采用双向匹配方法,并引入规则解决歧义切分问题.与现有的快速分词算法比较,该算法分词效率高且正确率高.  相似文献   

14.
修驰  宋柔 《计算机应用》2013,33(3):780-783
中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵信息为分词歧义的评价标准,独立、组合地使用这三种信息解决分词歧义问题。实验结果显示该方法可以有效消解专业领域的分词歧义,并明显提高分词效果。  相似文献   

15.
李允明  金声 《机器人》1991,13(1):27-31,35
本文介绍了一种较实用的双摄象头三维视觉系统.主要讨论了视场内具有六个自由度物体的定位问题.系统以Frei和Chen方法抽取边缘,并运用了非均匀量化和预加重技术.采用了改进的Moravec兴趣算子法,实现了特征点的自动抽取.基于边缘的序贯分层配准法大大缩短了配准时间.在用三维数据获取物体姿态时.根据刚体运动总结的规则解决了工作特征点和模型点匹配时的组合爆炸问题和多义性问题.  相似文献   

16.
提出了局部歧义词网格的概念,针对汉语分词中的覆盖歧义,提出了一种使用迭代算法训练覆盖歧义词典的算法,得到覆盖歧义候选词条词典。在此基础上提出了一种基于局部歧义词网格的、能够检测汉语分词过程中产生的组合歧义和覆盖歧义的分词算法,该算法仅考虑存在歧义的局部歧义词网格,并将对覆盖歧义的处理简化为查询覆盖歧义候选词典,因此,该算法的时间复杂度大幅下降。实验结果表明,该算法能够实现快速的汉语分词,且其分词正确率能够达到97%以上。  相似文献   

17.
一种面向网络答疑的汉语切分歧义消除算法   总被引:3,自引:0,他引:3  
针对网络答疑的特点,该文提出了一种汉语歧义消除算法,采用回溯机制及歧义消除评优算法相结合的方法消除汉语切分歧义。首先利用回溯机制发现句子的切分歧义字段,产生含有多种可能切分结果的候选集;然后针对网络答疑特点提出了评优算法,利用该算法计算候选结果的评价值,对其进行排序,选取分词最佳结果,从而消除歧义,提高分词的准确率。该算法已经在基于Web的自然语言答疑系统WebAnswerSystem中实现并得到了实际应用。实验结果表明,算法具有较高的准确率和召回率,对自然语言网络答疑中进行切分歧义消除是行之有效的。  相似文献   

18.
汉语文本中交集型切分歧义的分类处理   总被引:2,自引:0,他引:2  
自动分词是中文信息处理的基本问题,交集型歧义字段的切分又是中文分词的难点.本文把交集型歧义字段按其宏结构分类,再依据本文提出的4条切分原则,使用歧义字段的结构信息和语法规则对不同类型的交集字段分别处理,提高了分词的准确性.该分词方法已作为中文网页索引和检索工具被用于网络搜索引擎中.实验效果表明,这一分词系统能够处理某些其它分词系统不能正确划分的实例.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号