共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
3.
汉语分词词典是中文信息处理系统的重要基础,词典算法设计的优劣直接关系着分词的速度和效率。分析了三种典型的分词词典结构,提出了一种具有三级索引的新词典结构,并提出了最大正向匹配的改进型匹配算法,从而降低了匹配过程的时间复杂度。最后通过实验,比较了三种典型词典结构与新词典结构的时间效率。实验结果表明,新词典结构具有更高的词典查询速度和分词速度,可以有效满足中文处理系统的需求。 相似文献
4.
在分析了现有各种汉语分词算法及其优缺点的基础上,提出以句子覆盖率和分词覆盖率作为评价分词方法的指标,详细介绍了基于网络有向图的双向匹配分词算法的设计与实现,该算法对经典的最大匹配分词算法进行了改进,通过带覆盖歧义标志的有向图生成多候选分词序列。与最大匹配算法和全切分算法的比较实验显示,基于有向图的双向匹配算法以低复杂度实现了高覆率盖。 相似文献
5.
提出一种基于最大匹配分词算法的中文词语粗分模型,通过对最大匹配分词算法做出改进,解决了最大匹配分词算法所不能解决的一些问题,并得出较准确的粗分结果。该模型在重点考虑切分速度的同时兼顾了切分精度,是中文分词比较有效的词语粗分手段之一,适用于处理海量数据的中文分词系统。 相似文献
6.
中文分词是汉语信息处理的前提,广泛应用于搜索引擎、自动翻译、中文文语转换(TTS)等领域。中文分词就是把没有明显分隔标志的中文字串切分为词串。基本算法主要有基于规则的方法和基于统计的方法及两者结合的方法。基于规则的方法的依据是分词词典和分词规则库,原理是字符串匹配,主要方法有正向最大匹配法、逆向最大匹配法、双向最大匹配法等。基于统计的方法的依据是字与字间、词与词间的同现频率,但必须以大规模的文本训练为前提。 相似文献
7.
中文信息处理中自动分词技术的研究与展望 总被引:22,自引:0,他引:22
汉语自动分词是中文信息处理的关键技术,已经成为中文信息处理发展的瓶颈。文章介绍了当前自动分词技术的研究状况,对各种分词算法进行了介绍,并对各种算法进行了比较和讨论。最后,对汉语自动分词技术的发展进行了展望。 相似文献
8.
9.
10.
在比较各种传统分词方法优缺点的基础上,本文提出了一种新的分词算法。它采用改进的双向Markov链统计方法对词库进行更新,再利用基于词典的有穷自动机后串最大匹配算法以及博弈树搜索算法进行分词。实验结果表明,该分词算法在分词准确性、效率以及生词辨识上取得了良好的效果。 相似文献
11.
12.
汉语自动分词实用系统CASS的设计和实现 总被引:9,自引:1,他引:8
近年来, 汉语自动分词成力中文信息处理的一大热门课题, 其研究进展令人关注。本文主旨, 是通过介绍CASS系统的设计和实现, 阐述汉语自动分词实用系统的一般性原理, 包括系统的总体结构、自动分词算法和分词词典的实现、各种多义切分字段的识别和处理, 等等。CASS系统由总控程序、自动分词程序、设施管理程序、分词词典和知识库等五大部分组成。自动分词算法程序选用正向增字最大匹配法ASM(+1,+1,+1)实现, 该算法的嵌套调用, 可以识别出各种多义切分字段, 包括任意多重的交集型多义字段。这个算法经过相应的运行控制, 可以实现其它各种分词方法。 相似文献
13.
14.
分词词典是汉语自动分词系统中的一个基本组成部分,其查询速度直接影响到分词系统的处理速度。文章提出并实现了一种用哈希算法和二分查找算法相结合的中文单词查找算法,实验显示,该算法可以实现对字符串的快速查找。 相似文献
15.
16.
17.
针对藏文分词,讨论了藏文分词的难点、语料库和藏文分词算法,然后在ASP.NET下设计了一个藏文分词系统。在长词优先的原则下通过SQL Server 2005自建了一个语料库。在Visual Studio 2005下,采用改进的正反向减增字最大匹配分词算法,使用ASP.NET和C#语言实现了这个系统。结果表明该分词系统达到了较好的分词效果。 相似文献
18.
19.
文中首先讨论了书面汉语切分研究的问题,然后从一般性研究出发,提出了全切分算法中可能的并发检索。并针对全切分分词算法进行了研究,给出了全切分分词方法算法中的并发检索模型。希望本文对于全切分算法中并发检索模型的讨论,对深入研究书面汉语全切分分词的问题和实现具有实际意义。 相似文献