首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
针对中文自动分词中组合型歧义消解难的问题,提出了一种新的切分算法来对组合型歧义字段进行消歧。该算法首先自动从训练语料中提取歧义字段的上下文信息来建立规则库,然后利用C-SVM模型结合规则对组合型歧义字段进行歧义消解。最后以1998年1月《人民日报》语料中出现的组合型歧义字段进行训练和测试,实验显示消歧的平均准确率达89.33%。  相似文献   

2.
基于规则挖掘和Naive Bayes方法的组合型歧义字段切分   总被引:1,自引:0,他引:1  
组合型歧义字段切分是中文自动分词的难点之一。在对现有方法进行深入分析的基础上,提出了一种新的切分算法。该算法自动从训练语料中挖掘词语搭配规则和语法规则,基于这些规则和Naive Bayes模型综合决策进行组合型歧义字段切分。充分的实验表明,相对于文献中的研究结果,该算法对组合型歧义字段切分的准确率提高了大约8%。  相似文献   

3.
基于规则挖掘和Na(l)ve Bayes方法的组合型歧义字段切分   总被引:1,自引:0,他引:1  
组合型歧义字段切分是中文自动分词的难点之一.在对现有方法进行深入分析的基础上,提出了一种新的切分算法.该算法自动从训练语料中挖掘词语搭配规则和语法规则,基于这些规则和Nave Bayes模型综合决策进行组合型歧义字段切分.充分的实验表明,相对于文献中的研究结果,该算法对组合型歧义字段切分的准确率提高了大约8%.  相似文献   

4.
基于支持向量机的汉语歧义切分算法   总被引:1,自引:0,他引:1  
李蓉 《计算机仿真》2009,26(7):354-357
针对于解决交集型伪歧义字段的切分,提出了一种应用支持向量机的汉语歧义切分方法.歧义切分问题可看为一个模式分类问题,为提高字段处理能力,应用支持向量机方法建立分类模型.先对歧义字段进行特征提取,采用互信息来表示歧义字段.求解过程是一个有教师学习过程,从歧义字段中挑选出一些高频伪歧义字段,人工将其正确切分作为训练样本并代入SVM训练得到一个分类模型.在分类阶段将SVM和KNN相结合构造一个新的分类器,对于待识别歧义字段代入分类器即可得到切分结果.实验证明不仅具有一定的识别准确率,而且可以提高歧义切分速度.  相似文献   

5.
基于SVM和k-NN结合的汉语交集型歧义切分方法   总被引:16,自引:0,他引:16  
本文提出了基于支持向量机(SVM)和k-近邻(k-NN)相结合的一种分类方法,用于解决交集型伪歧义字段。首先将交集型伪歧义字段的歧义切分过程形式化为一个分类过程并给出一种歧义字段的表示方法。求解过程是一个有教师学习过程,从歧义字段中挑选出一些高频伪歧义字段,人工将其正确切分并代入SVM训练。对于待识别歧义字段通过使用SVM和k-NN相结合的分类算法即可得到切分结果。实验结果显示使用此方法可以正确处理91.6%的交集歧义字段,而且该算法具有一定的稳定性。  相似文献   

6.
DENG Fan  YU Bin 《微机发展》2008,18(6):107-110
针对中文中歧义字段对中文处理及理解带来的诸多问题提出了一种基于自然语言理解的中文汉字歧义消除算法。对于交集型歧义和组合型歧义,利用《知网》为主要语义资源,以知识图知识表示方法,通过提出的字段消歧算法,对歧义字段以及上下文的语义进行计算,从而选出正确的句子切分方案,达到消除歧义的目的。经过实验数据表明本算法提高了中文歧义字段歧义切分的正确率。  相似文献   

7.
关于歧义字段切分的思考与实验   总被引:6,自引:2,他引:6  
通常认为:如果一个字段存在不同的切分形式,则称该字段为歧义字段。假设A ,B ,C 分别代表一个或多个字组成的字串,在字段ABC 中如果A ,AB ,BC ,C 都是词,则称ABC 为 交集型歧义字段。在字段AB 中,如果A ,B ,AB 都是词,则称AB 为组合型歧义字段。交集型歧义字段占字段总数的85 % - 90 %。  相似文献   

8.
针对中文中歧义字段对中文处理及理解带来的诸多问题提出了一种基于自然语言理解的中文汉字歧义消除算法.对于交集型歧义和组合型歧义,利用<知网>为主要语义资源,以知识图知识表示方法,通过提出的字段消歧算法,对歧义字段以及上下文的语义进行计算,从而选出正确的句子切分方案,达到消除歧义的目的.经过实验数据表明本算法提高了中文歧义字段歧义切分的正确率.  相似文献   

9.
分析了几种典型的歧义识别方法,结合全切分分词算法提出了OSAIM(Ambiguity Identification Mechanism based on Om-ni-Segmentation)歧义识别机制和DOSAIM(Disposal strategy of OSAIM)歧义处理策略,OSAIM采用全切分算法的思想,用得到的所有切分词汇构建一个歧义矩阵,最后计算矩阵中的歧义字段。OSAIM机制能够识别所有的交集型歧义和组合型歧义,DOSAIM策略能够有效解决全切分分词路径过多和歧义处理结果矛盾的问题。  相似文献   

10.
利用上下文信息解决汉语自动分词中的组合型歧义   总被引:17,自引:2,他引:15  
组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。  相似文献   

11.
设计一种组合型的分词机制:基于字典的双向最大匹配,基于字标注的中文分词方法和隐马尔科夫的分词方式。通过实验的结果比较,表明该种组合型的分词方法能够较好地解决中文歧义并发现新的登录词。  相似文献   

12.
提出了局部歧义词网格的概念,针对汉语分词中的覆盖歧义,提出了一种使用迭代算法训练覆盖歧义词典的算法,得到覆盖歧义候选词条词典。在此基础上提出了一种基于局部歧义词网格的、能够检测汉语分词过程中产生的组合歧义和覆盖歧义的分词算法,该算法仅考虑存在歧义的局部歧义词网格,并将对覆盖歧义的处理简化为查询覆盖歧义候选词典,因此,该算法的时间复杂度大幅下降。实验结果表明,该算法能够实现快速的汉语分词,且其分词正确率能够达到97%以上。  相似文献   

13.
一种面向网络答疑的汉语切分歧义消除算法   总被引:3,自引:0,他引:3  
针对网络答疑的特点,该文提出了一种汉语歧义消除算法,采用回溯机制及歧义消除评优算法相结合的方法消除汉语切分歧义。首先利用回溯机制发现句子的切分歧义字段,产生含有多种可能切分结果的候选集;然后针对网络答疑特点提出了评优算法,利用该算法计算候选结果的评价值,对其进行排序,选取分词最佳结果,从而消除歧义,提高分词的准确率。该算法已经在基于Web的自然语言答疑系统WebAnswerSystem中实现并得到了实际应用。实验结果表明,算法具有较高的准确率和召回率,对自然语言网络答疑中进行切分歧义消除是行之有效的。  相似文献   

14.
基于语境信息的汉语组合型歧义消歧方法   总被引:2,自引:0,他引:2  
组合型歧义切分字段一直是汉语自动分词的难点,难点在于消歧依赖其上下文语境信息。本文采集、统计了组合型歧义字段的前后语境信息,应用对数似然比建立了语境计算模型,并考虑了语境信息的窗口大小、位置和频次对消歧的影响而设计了权值计算公式。在此基础上,1.使用语境信息中对数似然比的最大值进行消歧;2.使用语境信息中合、分两种情况下各自的对数似然比之和,取值大者进行消歧。对高频出现的14个组合型分词歧义进行实验,前者的平均准确率为84.93%,后者的平均准确率为95.60%。实验证明使用语境信息之和对消解组合型分词歧义具有良好效果。  相似文献   

15.
中文粗分和歧义消解是中文分词的两大基本过程。通过引入广义词条和诱导词集,在最大匹配算法基础上提出一种中文分词的粗分方法,以最长广义词匹配为原则进行中文分词,利用诱导词集实现交叉型歧义识别。在保证快速准确切分无歧义汉语语句的同时,100%检测并标记有歧义汉语语句中的交叉型歧义,最大程度上简化后续歧义消解过程。通过对含有160万汉字1998年1月人民日报语料测试的结果证明了算法速度、歧义词准确率以及粗分召回率的有效性。  相似文献   

16.
组合歧义消解是分词中的关键问题之一,直接影响到分词的准确率。为了解决越南语组合歧义对分词的影响问题,结合越南语组合型词的特点,提出了一种基于集成学习的越南语组合歧义消解方法。该方法首先通过人工选取越南语组合歧义词,构建出越南语组合歧义字段库,对越南语语料与越南语组合词词典进行匹配,抽取出越南语组合歧义字段;其次,采用三类分类器引入越南语词频特征和上下文信息,构建三类分类器消解模型,得到三类分类器消解结果;最后,计算出各分类器权值,通过阈值对越南语组合歧义进行最终分类。实验表明,所提方法的正确率达到了83.32%,与消歧结果最好的单个分类器相比准确率提高了5.81%。  相似文献   

17.
中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规模,为进一步正确分词奠定基础。通过公共语料库数据集的实验对比,取得很好的效果。  相似文献   

18.
针对现有基于语义的词义消歧方法存在两点不足:一,利用部分具有歧义的上下文语境词进行消歧存在不合理性;二,未考虑上下文语境词距离远近对语义相关度计算的影响,提出一种改进的方法,采用分步策略和距离加权两种方法分别进行改进。实验结果表明,改进方法在消歧效果上有明显的改善。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号