共查询到20条相似文献,搜索用时 765 毫秒
1.
库瓦特拜克·马木提 《计算机技术与发展》2020,(4):182-188
自然语言处理任务中词处理是基础性的工作,其结果直接影响后续任务的效果。词干和构形附加成分是哈萨克语单词的组成成分,其中词干显示单词的主要意义,而构形附加成分中包含着词法和句法信息,因此词干切分是对哈萨克语进行有效处理的基础。文中构建了哈萨克语词干切分语料库,并通过将哈萨克语词干切分看作是序列化标注问题,提出一种有效的哈萨克语词标注方法,并基于最大熵模型和条件随机场模型构建了对比词干切分实验。结果表明基于条件随机场模型的词干切分准确率比现有最好的哈萨克语词干切分系统的准确率有15%的提高。该方法对哈萨克语词干切分相较于基于规则的方法有了一定的提升。 相似文献
2.
提出了基于词干单元的维吾尔语和哈萨克语(以下称维-哈语)文本关键词提取方法。维-哈语属于资源缺乏的派生类语言,词素结构分析和词干提取方法能有效地减少派生类语言的粒度容量,并且可以提高其覆盖率。从网上下载维-哈语文本,并切分成词素序列,用word2vec训练词干向量以分布式表示文本内容,再用TF-IDF算法对其词干向量进行加权处理。根据训练集关键词干向量和测试集词干向量相似度来提取关键词。实验结果表明,基于词素切分及词干向量表示的方法是在维-哈语等派生类语言关键词提取任务中的重要步骤,通过这个步骤,能够提高关键词提取的准确率。 相似文献
3.
蒙古词法分析是蒙古语信息处理的基础性问题,是蒙古语信息处理工作的第一步。通过对统计模型和蒙古语构词规则进行深入研究,提出了一种融合统计和规则技术的蒙古语词切分和词性标注的方法。该方法以统计模型作为基本框架,采用树形结构描述系统的解空间,并加入了蒙古语语言学规则和词干、词缀词典。实验结果表明,该系统分词和词性标注的词级准确率为95.1%,词干/词缀级准确率为94.6%,较已有蒙古语词法分析系统的准确率有所提高。 相似文献
4.
5.
维吾尔语词切分方法初探 总被引:11,自引:9,他引:11
维语词的词干-词附加成分切分、音节切分的规律对维吾尔语自然语言处理方面提供更多方便。本文提出了以“词=词根+附加成分”结构。维语附加成分种类繁多,连接形式各式各样,在句子中起着非常重要的作用,同时有相当的规律性。本文提出了维语中可能出现的基本语音规律的处理方法,如:语音同化、音节切分、语音和谐规律处理。本文对维文词的词法和语音法结构进行了归纳,提出了维语词切分的一些规律和实现方法。以新疆高校学报为语料来测试,对规则词准确率达到95%。 相似文献
6.
7.
维吾尔语是形态变化复杂的黏着性语言,维吾尔语词干词缀切分对维吾尔语信息处理具有非常重要的意义,但到目前为止,维吾尔语词干提取的性能仍存在较大的改进空间。该文以N-gram模型为基本框架,根据维吾尔语的构词约束条件,提出了融合词性特征和上下文词干信息的维吾尔语词干提取模型。实验结果表明,词性特征和上下文词干信息可以显著提高维吾尔语词干提取的准确率,与基准系统比较,融入了词性特征和上下文词干信息的实验准确率分别达到了95.19%和96.60%。
相似文献
相似文献
8.
词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi-LSTM-CRF的维吾尔语词干提取模型,将字符作为最小切分单位,选取维吾尔语字符特征、音类特征以及语音特征为候选特征,结合模型进行实验。实验表明,该文提出的Bi-LSTM-CRF模型在维吾尔语词干提取任务上,F1值达到了88%,在融入手工提取的候选特征之后,F1值提高了1.8个点,有效提高了词干提取的准确性,缓解了上述问题带来的影响。 相似文献
9.
维吾尔语是典型的黏着性语言,其派生能力很强,具有丰富的形态变化,同时遵循语音和谐规律,生成过程中会出现弱化、增音、脱落等音变现象.这些特性决定了维吾尔语词法分析的难点,包括词干提取、发生音变字母的还原以及标注.将维吾尔语词的层次结构引入到词法分析研究中,提出了维吾尔语词法分析的有向图模型,该模型将维吾尔语词法分析描述为有向图结构,图中节点表示词干、词缀及其相应标注,其边表示节点之间的转移或生成概率并将此概率作为候选择优的依据.针对维吾尔语在形态变化过程中发生的音变现象,又提出基于词内字母对齐算法的自动还原模型,该模型将音变现象泛化到每个字母上的假设之下,将还原问题转变成类似于词性标注问题,再利用统计方法进行还原.在对新疆多语种信息技术重点实验室手工标注的《维吾尔语百万词词法分析语料库》上进行的实验中,取得了词干提取正确率为94.7%,词干与各词缀切分并标注的F值达到92.6%的好成绩. 相似文献
10.
针对专利文本翻译中长句翻译的问题,提出了一种句子切分算法,即把长句切分成多个独立的小句后再进行翻译的方法。切分算法使用了概念层次网络(HNC)理论的语义特征来切分小句,切分算法和一个基于规则的基线翻译系统进行了融合,融合后的翻译系统的BLEU值达到0189 8,比融合前的系统提高了30%。实验结果证明,提出的方法可以有效地改进专利翻译效果。 相似文献
11.
在啥萨克语文本非词查错方面,归纳和总结查错方法,在一定规模的哈萨克语词库的支持下,利用哈萨克语的特点,用哈萨克语词干切分程序和哈萨克语的音节规则,从文本中找出非词错误,再用最小编辑距离算法提供最有可能的候选词.在哈萨克语文本真词查错部分,根据上下文信息,采用基于N-gram的语言模型,利用文本的局部连接同现概率三元语法模型来进行真词查错,再用基于编辑距离的模式匹配方法对真词错误提供纠错建议.实验结果表明,系统的查错与纠错效率较好,实验方案是可行的. 相似文献
12.
快速书面汉语自动分词系统及其算法设计 总被引:12,自引:1,他引:11
本文针对机械分词,提出词典组织结构、改进的二分法检索、直接匹配算法,以及后缀分词算法。运用这些技术,正逆向切分可共用一部词典,并显著提高分词速度。 相似文献
13.
提出了一套完整的针对单字的笔迹图像分割算法,选用不同的笔迹样本作了验证实验,对实现单字分割做了全面的阐述论证。将模板分割算法中的行分割、字分割、单字图像库建立和基于模板匹配的分割算法结合在一起,提高了算法的运算速度和精确度。利用50幅笔迹样本进行测试,92%的单字分割样本可以作为单字模板,应用模板匹配分割算法92%的样本可以实现单字提取。 相似文献
14.
针对图像全局立体匹配精度高、计算量大的问题,提出基于mean shift图像分割的全局立体匹配方法。首先,通过mean shift算法对图像进行分割,获取图像同质区域数量和区域的标号。在计算匹配代价时,根据像素所属的分割区域,对像素进行筛选,从而提高匹配代价计算速度;其次,在代价聚合前,将mean shift算法获取的同质区域数K值赋值给K-means聚类算法,对像素再次聚类,提高立体匹配精度和速度;最后通过TRW-S置信传播解决能量最小化问题。实验表明,该算法明显提高了匹配的准确性和速度,与单纯的全局匹配算法相比,具有更大的优势。 相似文献
15.
提出一种基于树形聚类匹配的脑肿瘤自动分割方法.为了去除非脑组织对于脑肿瘤定位的影响,首先提出一种新的脑组织提取算法,这种算法无需完整的序列影像,可直接对三维影像数据进行分割.其次对分割后的脑组织影像进行中心定位,建立树形索引匹配结构,采用一种节点匹配算法完成粗分割,最后根据粗分割结果,采用形变模型完成精确分割.算法的特点是无需数据集的训练,能够较为准确的完成脑肿瘤的自动分割,实验结果验证了算法的实用性及可行性. 相似文献
16.
17.
基于遗传算法的最佳熵阈值的图像分割 总被引:12,自引:1,他引:12
Kapur等人提出的最佳熵阈值的图像分割具有很多优点,但同时也需要大量的运算时间,限制了其实际的应用范围,且最佳熵阈值的确定是一有待解决的问题,文章将遗传算法应用于最佳熵阈值的确定中,提出了相应的算法并用于图像分割,仿真结果表明,在设定了合适的遗传算子后,遗传算法不仅可以实现正确的图像分割,并且使得分割速度大大提高。 相似文献
18.
19.
基于Lucene的中文分词技术研究 总被引:1,自引:0,他引:1
分析了现有的几种中文分词的算法,提出了在逆向最大匹配算法的基础上结合语义理解的分词方法,利用最大概率分词的方法解决多种分词结果的问题,以此来改进Lucene[1]的中文分词的算法,提高了分词的速度和准确性。 相似文献