共查询到18条相似文献,搜索用时 93 毫秒
1.
一种全切分与统计结合的分词系统 总被引:1,自引:1,他引:0
歧义消解是中文分词的主要问题之一.提出了一种全切分与统计结合的分词算法,构造出基于统计词典的有向无环词图,利用动态规划算法得出最佳的分词路径.实验证明,系统有效地提高了歧义切分的准确性及分词速度. 相似文献
2.
《现代电子技术》2020,(1)
传统自然语言中歧义字段切分系统设计对于歧义字段的分辨能力较差,切分效率差,准确度低。针对上述问题,设计一种基于知识图谱的自然语言中歧义字段切分系统。系统硬件设计了三个模块:采集及分词知识提取模块负责对自然语言中的字段进行收集与信息提取,辨别歧义字段;算法与测试模块处理负责检测所捕捉字段的歧义字段信息,提高系统精准度;分词识别模块负责对歧义字段进行系统切分。软件设计了系统的各项功能,包括系统分词精度提升功能、速度提升功能、完备性增强功能、可维护性以及系统可移植性增强功能,综合整理各结构的性能,进一步提高整体系统切分能力,以实现对歧义字段的切分目的。为检测系统工作效果,与传统系统进行实验对比,结果表明,基于知识图谱的自然语言中歧义字段切分系统设计的切分效果优于传统系统设计。 相似文献
3.
4.
提出了一种应用于GIS领域的中文分词算法.采用将首字和尾种类词用哈希表管理,其余中间字串用Trie树来实现的"首位Hash-Trie树"结构作为词典载体来实现地学词典的高效率存取操作,简化了Trie树的深度,并基于一种改进的正向最大匹配的算法,很好的解决了切分歧义和未登录词的问题.实验结果表明,该算法为GIS中文查询语句的正确理解提供了有效的语义信息. 相似文献
5.
字符切分是藏文古籍文档图像分析与识别中重要的一环,针对乌金体藏文古籍文本行倾斜,字符之间笔画交叠、交叉、粘连以及不同程度的笔画断裂、噪声干扰等问题,提出了一种基于结构属性的乌金体藏文字符切分方法.首先,建立了乌金体藏文古籍字符区块库.然后,利用音节点位置信息或结合水平投影与直线检测的方法检测出字符区块的局部基线,并根据基线将字符区块切分为上下两部分;利用改进的模板匹配算法检测基线上方笔画的粘连及其类型,利用多方向、多路径粘连切分算法切分交叉、粘连笔画.最后,根据藏文结构属性对各笔画进行归属,完成字符切分.实验结果表明,本方法能有效解决字符切分中遇到的问题,字符切分的召回率、精确率以及F-Measure可分别达到96.52%、98.24%、97.37%. 相似文献
6.
介绍了一个对汉语语料进行切分加工的系统,该系统结合了规则和统计两类方法,可以按多种方法输出切分结果.并根据概率信息在分词阶段就对歧义进行适当处理,并可保留少数在分词阶段无法确定的歧义留待后继层面上的分析加工。 相似文献
7.
针对计算机语义网络中交集型和组合型词汇岐义的问题,通过分析了传统分词方法中存在的缺陷,提出基于最大概率计算的自动分词歧义方法.运用上下文语义相关度对产生歧义的词汇进行有效修正,重新计算切分候选词所产生的有效"费用",运用最大概率计算法对产生歧义的词汇进行关联程度概率计算,克服传统分词方法的弊端.成功地解决交集型岐义、连环交集型岐义、组合型岐义、混合型岐义切分问题,消除语义网络中的交集型和组合型词汇岐义的影响,取得了不错的效果. 相似文献
8.
离散傅里叶变换(DFT)在数字信号处理等许多领域中起着重要作用.本文采用一种新的傅里叶分析技术—算术傅里叶变换(AFT)来计算DFT.这种算法的乘法计算量仅为O(N);算法的计算过程简单,公式一致,克服了任意长度DFT传统快速算法(FFT)程序复杂、子进程多等缺点;算法易于并行,尤其适合VLSI设计;对于含较大素因子,特别是素数长度的DFT,其速度比传统的FFT方法快;算法为任意长度DFT的快速计算开辟了新的思路和途径. 相似文献
9.
中文分词歧义识别算法的优化 总被引:1,自引:1,他引:0
中文分词系统性能的好坏直接影响到后续的工作,而歧义字段的处理更是衡量一个分词系统好坏的重要标志。解决歧义问题前首先就要找到歧义字段,本文在之前的增字最大匹配算法基础上,提出了一种结合逐字扫描算法和逆向最大匹配算法的歧义字段识别方法。实验结果表明,这里提出的算法执行效率要比增字最大匹配算法效率高,速度更快。 相似文献
10.
11.
球状重叠区域图像分割与参数统计算法研究 总被引:8,自引:0,他引:8
研究了重叠区域图像分割和参数统计的算法 ,提出综合利用阈值法和距离变换 ,并采用所设计的两个计算流程在对图像进行分割的同时完成参数统计。计算机模拟结果表明 ,整个算法不需要人工干预 ,易于软件和硬件实现 相似文献
12.
13.
14.
15.
Image segmentation directly determines the performance of automatic screening technique. However, there are overlapping nuclei in nuclei images. It raises a challenge to nuclei segmentation. To solve the problem, a segmentation method of overlapping cervical nuclei based on the identification is proposed. This method consists of three stages: classifier training, recognition and fine segmentation. In the classifier training, feature selection and classifier selection are used to obtain a classifier with high recognition rate. In the recognition, the outputs of the rough segmentation are classified and processed according to their labels. In the fine segmentation, the severely overlapping nuclei are further segmented based on the prior knowledge provided by the recognition. Experiments show that this method can accurately segment overlapping nuclei. 相似文献
16.
1 IntroductionWord is the starting point for natural language pro-cessing,information retrieving,and machine translation.There is no space or any other physical means to marktheboundaries of words in Chinese.Thus,howto i mprove theaccuracy and efficiency … 相似文献
17.
一种基于N-gram模型和机器学习的汉语分词算法 总被引:6,自引:0,他引:6
汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算法,无需人工编制领域词典。该文还讨论了评价分词算法的两个定量指标,即查准率和查全率的定义,在此基础上,用封闭语料库和开放语料库对该文提出的汉语分词模型进行了实验测试,表明该模型和算法具有较高的查准率和查全率。 相似文献