首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
《信息技术》2016,(6):17-20
文中提出了一种更为有效和准确的中文分词处理方法,并利用Lucene软件工具设计了相应的中文分词技术模块。该模块加入了改进的FFM算法,即MMSEG算法[1]的中文分词技术,对中文分词中的歧义现象实现了更好的解决方案。与现有实现算法相比,该方法可以更快更好地实现中文分词功能,可有效提高全文检索中的中文检索的能力。  相似文献   

2.
中文分词技术的研究现状与困难   总被引:2,自引:0,他引:2  
孙铁利  刘延吉 《信息技术》2009,(7):187-189,192
中文分词技术是中文信息处理领域的基础研究课题.而分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分.首先对中文分词的基本概念与应用,以及中文分词的基本方法进行了概述.然后分析了分词中存在的两个最大困难.最后指出了中文分词未来的研究方向.  相似文献   

3.
中文分词是在中文信息处理系统中的关键步骤,文章探讨了常见的几种中文分词方法以及他们的优点和缺点,并指出了在中文分词工作中的困难。  相似文献   

4.
设计实现了一个基于Lucene的中文分词模块,提出了一种更为有效的中文词处理方法,提高全文检索系统的中文处理能力.整个模块基于当前使用较为广泛的全文检索引擎工具包Lucene,结合正向最大匹配算法以及经过优化的中文分词词典,以实现更高效率和准确度的中文分词功能.在系统评测方面,通过实验仿真比较了该模块与StandardAnalyzer和CJKAnalyzer在功能和效率上的差异.对于如何构建一个高效的中文检索系统,提出了一种实现方案.  相似文献   

5.
中文分词是信息提取、信息检索、机器翻译、文本分类、自动文摘、自然语言理解等中文信息处理领域的基础。目前中文分词依然是中文信息处理的瓶颈之一,本文对常见中文分词算法进行研究,并针对警务应用的场景,在经典的Jieba中文分词算法的逆向匹配法基础上提出双向最大匹配法,最后验证改进后的算法在中文分词准确度方面的提升。  相似文献   

6.
基于互联网信息平台下,对如何快速准确的进行中文分词进行研究。主要对基于WEB环境下的中文分词建立模型,快速中文分词,自动中文分词进行全面的阐述。  相似文献   

7.
《信息技术》2016,(10):190-193
首先简要介绍了中文分词的应用领域,指出中文分词所面临的问题,歧义语句和未登录词的识别率低的现状。然后,在传统的机械分词算法基础上,改进算法,引入了多种优化技术。基于上述理论和改进算法,设计并实现了一个改进的中文分词系统,不仅能够保证快速分词,而且提高了分词的正确率,改善了歧义语句和未登录词的识别率低的问题。  相似文献   

8.
基于正反向最大匹配分词系统的实现   总被引:2,自引:0,他引:2  
汉语自动分词技术是中文信息处理的基础课题,目前已成为中文信息处理的关键技术.本文在对目前几种分词算法进行研究的基础上,实现了一个基于正反向结合的最大匹配分词系统,同时又实现了屏幕分词与文件分词两项功能.对于过去单一的分词方式,此系统有利于对比分词结果,把握分词的准确性.  相似文献   

9.
提出了一种应用于GIS领域的中文分词算法.采用将首字和尾种类词用哈希表管理,其余中间字串用Trie树来实现的"首位Hash-Trie树"结构作为词典载体来实现地学词典的高效率存取操作,简化了Trie树的深度,并基于一种改进的正向最大匹配的算法,很好的解决了切分歧义和未登录词的问题.实验结果表明,该算法为GIS中文查询语句的正确理解提供了有效的语义信息.  相似文献   

10.
中文分词结果对中英命名实体识别及对齐有着直接的影响,本文提出了一种命名实体识别及对齐中的中文分词优化方法.该方法利用实体词汇的对齐信息,首先修正命名实体识别结果,然后根据实体对齐结果调整分词粒度、修正错误分词.分词优化后的结果使得双语命名实体尽可能多地实现一一对应,进而提高中英命名实体翻译抽取和统计机器翻译的效果.实验结果表明了本文优化方法的有效性.  相似文献   

11.
本文重点研究了如何改进中文分词算法,并根据新的中文算法,设计出可以满足Hadoop文件系统可视化文件搜索引擎研究的中文分析器MyAnalyzer。  相似文献   

12.
汉语属于汉藏语系,和英语等语言不同的是:它不是以一个个单词的形式出现,词与词之间没有空格等明显的分割标记。中文分词是现代中文信息处理的基础,是汉语自然语言理解与处理、机器翻译、智能检索、电子词典等信息处理的前提。中文分词系统的好坏将直接影响以中文分词系统为基础的系统的性能。因此对中文分词系统的评测就是一件十分有意义的事。  相似文献   

13.
在中文分词领域,基于字标注的方法得到广泛应用,通过字标注分词问题可转换为序列标注问题,现在分词效果最好的是基于条件随机场(CRFs)的标注模型。作战命令的分词是进行作战指令自动生成的基础,在将CRFs模型应用到作战命令分词时,时间和空间复杂度非常高。为提高效率,对模型进行分析,根据特征选择算法选取特征子集,有效降低分词的时间与空间开销。利用CRFs置信度对分词结果进行后处理,进一步提高分词精确度。实验结果表明,特征选择算法及分词后处理方法可提高中文分词识别性能。  相似文献   

14.
一种全切分与统计结合的分词系统   总被引:1,自引:1,他引:0  
歧义消解是中文分词的主要问题之一.提出了一种全切分与统计结合的分词算法,构造出基于统计词典的有向无环词图,利用动态规划算法得出最佳的分词路径.实验证明,系统有效地提高了歧义切分的准确性及分词速度.  相似文献   

15.
本文基于经典算法回溯法,对中文分词进行在研究与比对,发现我们的实验结果优于当下的双向LSTM模型、以及CRF条件随机场的数据,将中文分词难点问题未登录词和歧义词的识别提高了1%。  相似文献   

16.
针对计算机语义网络中交集型和组合型词汇岐义的问题,通过分析了传统分词方法中存在的缺陷,提出基于最大概率计算的自动分词歧义方法.运用上下文语义相关度对产生歧义的词汇进行有效修正,重新计算切分候选词所产生的有效"费用",运用最大概率计算法对产生歧义的词汇进行关联程度概率计算,克服传统分词方法的弊端.成功地解决交集型岐义、连环交集型岐义、组合型岐义、混合型岐义切分问题,消除语义网络中的交集型和组合型词汇岐义的影响,取得了不错的效果.  相似文献   

17.
实现了一种基于哈希表索引和匹配算法的藏文分词的系统。进行分词时,为达到消除部分歧义的目的,采用了正向最大匹配和逆向最大匹配算法相结合的方式进行藏文分词,通过分别计算两种分词结果的频率,然后选择频率较大的一个。最终,通过对26个不同大小的文本对该系统进行测试和分析,得出了分词准确率在92%以上的结论。  相似文献   

18.
首先对DGP系统作了一个简单的介绍,在对DGP系统将要实现的功能有了一个大致的了解的基础上,然后通过对现有的分词技术的深入了解分析之后,决定将双向最大匹配法进行改进之后运用于DGP系统之中。对双向最大匹配法的改进主要是针对词典,方法就是根据词的长度将词典分成一个一个的块,每一块具有相同的词长。通过对双向最大匹配法的改进,提高了DGP系统分词效率和搜索的准确率,最后达到了优化DGP系统的目的。  相似文献   

19.
崔虹燕 《信息技术》2008,32(4):124-125
在分析传统FMM分词算法的原理与特点的基础上,利用词频统计结果,提出了一种改进的FMM算法,通过分析,改进的FMM算法可以进一步提高分词的效率.  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号