共查询到18条相似文献,搜索用时 93 毫秒
1.
2.
3.
4.
中文分词系统性能的好坏直接影响到后续的工作,而歧义字段的处理更是衡量一个分词系统好坏的重要标志。解决歧义问题前首先就要找到歧义字段,本文在之前的增字最大匹配算法基础上,提出了一种结合逐字扫描算法和逆向最大匹配算法的歧义字段识别方法。实验结果表明,这里提出的算法执行效率要比增字最大匹配算法效率高,速度更快。 相似文献
5.
本文重点研究了如何改进中文分词算法,并根据新的中文算法,设计出可以满足Hadoop文件系统可视化文件搜索引擎研究的中文分析器MyAnalyzer。 相似文献
6.
7.
《电子技术与软件工程》2016,(4)
中文分词是信息提取、信息检索、机器翻译、文本分类、自动文摘、自然语言理解等中文信息处理领域的基础。目前中文分词依然是中文信息处理的瓶颈之一,本文对常见中文分词算法进行研究,并针对警务应用的场景,在经典的Jieba中文分词算法的逆向匹配法基础上提出双向最大匹配法,最后验证改进后的算法在中文分词准确度方面的提升。 相似文献
8.
9.
基于互联网信息平台下,对如何快速准确的进行中文分词进行研究。主要对基于WEB环境下的中文分词建立模型,快速中文分词,自动中文分词进行全面的阐述。 相似文献
10.
中文分词技术的研究现状与困难 总被引:2,自引:0,他引:2
中文分词技术是中文信息处理领域的基础研究课题.而分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分.首先对中文分词的基本概念与应用,以及中文分词的基本方法进行了概述.然后分析了分词中存在的两个最大困难.最后指出了中文分词未来的研究方向. 相似文献
11.
本文首先从中文输入法应用的角度出发,在阐述了N-gram模型的基础上对中文输入法的分词进行了详细的剖析,进一步根据训练数据的稀疏问题,使用Back-off模型进行数据的平滑处理.针对系统词库数量受限的问题,在构建词图的前提下,使用基于A*的算法求解前k优路径.最后实验结果表明,本文所使用的基于A*的算法与改进Dijkstra算法、基于DP的算法等常用的求前k优路径的算法相比,具有较高的效率和准确率,为中文分词及求取k-best算法的研究开拓了新的思路. 相似文献
12.
讨论了中文信息的智能过滤问题,综合考虑了系统的准确性和智能性,将中文分词技术和贝叶斯推理相结合,并针对目前不良信息的特点,改进了中文分词算法。实验证明此系统对不良信息的智能识别具有很高的准确性。 相似文献
13.
14.
一种改进整词二分法的中文分词词典设计 总被引:1,自引:0,他引:1
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率.针对常用的分词方法--正向匹配分词法的特征,在已有整词二分词典的基础上加以改进,设计了一种基于Hash索引、二叉树以及动态一维数组结构的中文分词词典,相对于传统的基于Hash索引的分词词典,减小了词典的空间复杂度,提高了汉语分词的速度,最主要的是改进后的词典在增添新词时比以往的词典更为容易. 相似文献
15.
16.
在分析传统FMM分词算法的原理与特点的基础上,利用词频统计结果,提出了一种改进的FMM算法,通过分析,改进的FMM算法可以进一步提高分词的效率. 相似文献
17.
在中文分词领域,基于字标注的方法得到广泛应用,通过字标注分词问题可转换为序列标注问题,现在分词效果最好的是基于条件随机场(CRFs)的标注模型。作战命令的分词是进行作战指令自动生成的基础,在将CRFs模型应用到作战命令分词时,时间和空间复杂度非常高。为提高效率,对模型进行分析,根据特征选择算法选取特征子集,有效降低分词的时间与空间开销。利用CRFs置信度对分词结果进行后处理,进一步提高分词精确度。实验结果表明,特征选择算法及分词后处理方法可提高中文分词识别性能。 相似文献