首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
一种能够检测所有交叉歧义的汉语分词算法   总被引:11,自引:0,他引:11  
本文给出了一种能够检测句子中所有交叉歧义的汉语分词算法.该算法基于"长词优先"的切分原则.它解决了切分路径数随句子长度的增长而呈几何级数增长的问题,并且提供了一种方法可将句子的覆盖歧义和交叉歧义分开处理.算法的运算复杂度为O(N),N为句子长度.它的输出使得进行下一步处理的运算量大大减少.  相似文献   

2.
针对计算机语义网络中交集型和组合型词汇岐义的问题,通过分析了传统分词方法中存在的缺陷,提出基于最大概率计算的自动分词歧义方法.运用上下文语义相关度对产生歧义的词汇进行有效修正,重新计算切分候选词所产生的有效"费用",运用最大概率计算法对产生歧义的词汇进行关联程度概率计算,克服传统分词方法的弊端.成功地解决交集型岐义、连环交集型岐义、组合型岐义、混合型岐义切分问题,消除语义网络中的交集型和组合型词汇岐义的影响,取得了不错的效果.  相似文献   

3.
《信息技术》2016,(10):190-193
首先简要介绍了中文分词的应用领域,指出中文分词所面临的问题,歧义语句和未登录词的识别率低的现状。然后,在传统的机械分词算法基础上,改进算法,引入了多种优化技术。基于上述理论和改进算法,设计并实现了一个改进的中文分词系统,不仅能够保证快速分词,而且提高了分词的正确率,改善了歧义语句和未登录词的识别率低的问题。  相似文献   

4.
提出了一种应用于GIS领域的中文分词算法.采用将首字和尾种类词用哈希表管理,其余中间字串用Trie树来实现的"首位Hash-Trie树"结构作为词典载体来实现地学词典的高效率存取操作,简化了Trie树的深度,并基于一种改进的正向最大匹配的算法,很好的解决了切分歧义和未登录词的问题.实验结果表明,该算法为GIS中文查询语句的正确理解提供了有效的语义信息.  相似文献   

5.
利用覆盖歧义检测法和统计语言模型进行汉语自动分词   总被引:6,自引:0,他引:6  
该文探讨了利用覆盖歧义检测法和统计语言模型进行汉语自动分词的问题。采用了多次迭代的方法来进行汉语词层面统计语言模型的训练。该方法能够得到更优化的语言模型。该文详细介绍了统计语言模型的训练过程,给出了语言模型复杂度随迭代次数增加而减小的实验结果。还给出了在不同的统计语言模型阶数下切分正确率变化的情况,分析了切分正确率变化的原因。  相似文献   

6.
手语是我国听障人重要交流之一,手语文本自动分词系统对听障人的政治、文化、生活的发展有着重要意义。研发了手语文本自动分词系统,这是在汉语切分的基础上针对手语特点进行手语切分,而且是利用计算机对文本里面的内容进行自动分词。该系统包括基本的自动分词方法、歧义的处理等基本模块,每一环节互相协助,互相依赖,共同决定该系统的价值、质量和应用水平。  相似文献   

7.
传统自然语言中歧义字段切分系统设计对于歧义字段的分辨能力较差,切分效率差,准确度低。针对上述问题,设计一种基于知识图谱的自然语言中歧义字段切分系统。系统硬件设计了三个模块:采集及分词知识提取模块负责对自然语言中的字段进行收集与信息提取,辨别歧义字段;算法与测试模块处理负责检测所捕捉字段的歧义字段信息,提高系统精准度;分词识别模块负责对歧义字段进行系统切分。软件设计了系统的各项功能,包括系统分词精度提升功能、速度提升功能、完备性增强功能、可维护性以及系统可移植性增强功能,综合整理各结构的性能,进一步提高整体系统切分能力,以实现对歧义字段的切分目的。为检测系统工作效果,与传统系统进行实验对比,结果表明,基于知识图谱的自然语言中歧义字段切分系统设计的切分效果优于传统系统设计。  相似文献   

8.
介绍了一个对汉语语料进行切分加工的系统,该系统结合了规则和统计两类方法,可以按多种方法输出切分结果.并根据概率信息在分词阶段就对歧义进行适当处理,并可保留少数在分词阶段无法确定的歧义留待后继层面上的分析加工。  相似文献   

9.
中文分词歧义识别算法的优化   总被引:1,自引:1,他引:0  
中文分词系统性能的好坏直接影响到后续的工作,而歧义字段的处理更是衡量一个分词系统好坏的重要标志。解决歧义问题前首先就要找到歧义字段,本文在之前的增字最大匹配算法基础上,提出了一种结合逐字扫描算法和逆向最大匹配算法的歧义字段识别方法。实验结果表明,这里提出的算法执行效率要比增字最大匹配算法效率高,速度更快。  相似文献   

10.
提出一种基于N元语法的汉语自动分词系统,将分词与标注结合起来,用词性标注来参与评价分词结果.首先基于词典和一元语法统计模型生成N个最优结果作为候选集;然后对候选集进行基于二元语法统计模型的词性标注,最后利用对文本的上下文"理解"信息来确定最佳切分结果.实验结果表明:此方法通过词性标注的反馈有效提高了分词正确率,词性标注对分词有反馈作用.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号