共查询到20条相似文献,搜索用时 31 毫秒
1.
并行分词方法的研究 总被引:10,自引:0,他引:10
吴胜远 《计算机研究与发展》1997,34(7):542-545
目前,中文分词方法都是属于串行分词方法。本文提出了一种并行分词方法,该方法是根据多级内码理论设计的,它大大提高了分词的速度,并行分词方法还便于设计成集成电路。 相似文献
2.
中文分词是中文信息处理的基础。基于二元统计的HMM中文分词算法表现良好,但也存在易将包含常用介、副词的词进行误拆分的问题。改进的分词算法运用逆向最大匹配的思想,在计算粗分集权重的过程中,考虑了分词的词长及词序对正确切分的有利影响。该算法首先计算出二元统计粗分模型有向边的权值,然后根据词长修定权值,最后运用最短路径法求出分词结果。实验结果表明,该算法有效的解决了过分拆分的问题,分词效果良好。 相似文献
3.
一种汉语分词方法 总被引:40,自引:4,他引:36
吴胜远 《计算机研究与发展》1996,33(4):306-311
本文对现有的汉语分词方法作了概述,然后,提出了一种新的汉语分词方法--单扫描分词方法,并对单扫描汉语分词方法的时间复杂度作了分析。分析表明,单扫描分词方法的时间复杂度为2.89,比现有的分词方法的时间复杂度12.32小得多。单扫描分词方法无论在理论,还是在实践上都有重大的意义。 相似文献
4.
5.
为了提高中文垃圾邮件预处理阶段的性能,加快查找分词的速度,基于哈希函数的算法思想创造性的构造了索引词典,设计了一种针对中文垃圾邮件的中文索引分词方法。通过实验,表明该方法提高了传统机械分词法的效率和准确率,改善了邮件预处理阶段的性能,并且可以广泛地应用于中文分词领域。 相似文献
6.
7.
8.
9.
基于Hash结构的机械统计分词系统研究 总被引:3,自引:1,他引:3
在综合比较了常用的机械分词方法和统计分词方法基础上,论文设计并实现了一种基于Hash结构的机械统计分词系统。系统突破了传统的机械分词方法和统计分词方法,结合了两者的优势,并对其做了一系列的改进。从对测试结果的分析可以看出,系统的分词速度达到了每秒一万两千个汉字以上,且具有较强的未登陆词识别能力。 相似文献
10.
提出一种新的书面汉语自动分词算法-增强型最大匹配法,并用此方法实现一个具学习功能的书而汉语实分词系统,系统运行实验表明该分词算法比较好地解决汉语分词的岐义问题,并且有比较高的分词效率。 相似文献
11.
介绍一种基于词的切分属性的分词算法。这种方法在最大匹配法基础上,根据大量的真实语料中出现的语言现象,把汉语中的词按其在分词意义下的特性进行分类,对每一类词确定一组规则,同时利用词的自然属性进行歧义难点处理,使分词算法更接近于实用的目的。 相似文献
12.
中文信息检索引擎中的分词与检索技术 总被引:32,自引:2,他引:32
文中论述了在开发中文信息检索系统中所涉及到的两项关键技术,即中文分词技术和检索技术。针对中文分词技术,介绍了一种改进的正向最大匹配切分算法,以及为消除歧义引入的校正策略,并在此基础上结合统计方法处理未登录词。针对检索技术,综述了几种最常用的检索模型的原理,并对每种模型的优缺点进行了简要分析。最后对给出的分词算法进行了测试,测试结果表明该分词算法准确度和效率能够满足实用的要求。 相似文献
13.
为能在缺乏粤语分词语料的情况下进行粤语研究,提出一种基于无监督与有监督结合的粤语分词方法。利用多源语料完成粤语词库的构建;利用二元字典与粤语词库对初步结果进行初筛分词和二次分词;利用DAG对粤语通用句式切分错误进行分析并修正;将修正后的粤语分词语料利用深度学习模型固化分词效果,得到基于Bert-BiLSTM-CRF三层架构的分词模型。实验结果表明,该方法能有效克服预分词语料的缺失问题,在无需大量分词语料的情况下,F值达到74.3%。 相似文献
14.
Web中文文本分词技术研究 总被引:22,自引:0,他引:22
中文自动分词技术是中文Web信息处理的基础。文中以最大匹配法(MM)为基础,充分考虑上下文(MMC),在内存中采用二分法进行分词匹配,有效地提高了分词的准确率和时效。并给出了评析报告,以及在生成Web文档中的关键词与自动摘要中的应用。 相似文献
15.
字典与统计相结合的中文分词方法 总被引:15,自引:0,他引:15
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DSfenci的分全率达99.52%,准确率达98.52%. 相似文献
16.
中文自动分词系统的设计模型 总被引:10,自引:1,他引:9
邓宏涛 《计算机与数字工程》2005,33(4):138-140
介绍了常用的中文自动分词方法,在此基础上,给出了中文自动分词系统的理论模型,指出评价自动分词系统优劣的性能指标,并对分词系统的发展作了探讨。 相似文献
17.
陶非凡 《计算机技术与发展》2014,(11):167-169
信息时代给人们的生活带来巨大改善,但同时也伴随一系列问题的产生,其中如何对网络中产生的大数据量的言论信息进行过滤的问题是研究的一大难点。传统的屏蔽法效率较低而且不够准确,因此文中提出了一种新的关键词屏蔽技术。主要采用二元语法模型结合层叠隐马可夫分词技术,首先运用二元语法模型在大量语料中得到普通词和关键词的构成概率,建立一个有普通词和关键词分类的词典,再结合层叠隐马可夫模型对具体句子进行分词处理,对分词后的结果计算其关键词屏蔽概率,最终得到一个科学的屏蔽概率,可以大大提高关键词屏蔽的准确性。 相似文献
18.
郭屹 《数字社区&智能家居》2008,(3):1240-1246
本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典的更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和TRIE索引树分词方法相比,该分词方法分词速度更快。 相似文献
19.
20.
GUO Yi 《数字社区&智能家居》2008,(7)
本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典的更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和TRIE索引树分词方法相比,该分词方法分词速度更快。 相似文献