共查询到16条相似文献,搜索用时 203 毫秒
1.
我们为蒙古语词法分析建立了一种生成式的概率统计模型。该模型将蒙古语语句的词法分析结果描述为有向图结构,图中节点表示分析结果中的词干、词缀及其相应标注,而边则表示节点之间的转移或生成关系。特别地,在本工作中我们刻画了词干到词干转移概率、词缀到词缀转移概率、词干到词缀生成概率、相应的标注之间的三种转移或生成概率,以及词干或词缀到相应标注相互生成概率。以内蒙古大学开发的20万词规模的三级标注人工语料库为训练数据,该模型取得了词级切分正确率95.1%,词级联合切分与标注正确率93%的成绩。 相似文献
2.
该文针对维吾尔语的音变现象,提出了一种自动还原模型。与以往方法不同的是,此模型中我们把音变现象泛化,先假设维吾尔语中所有语音都有音变现象,从而将还原问题转化为类似于词性标注问题,再利用标注的方法解决了还原操作。在新疆多语种信息技术重点实验室手工标注的《维吾尔语百万词词法分析语料库》上做了实验,还原模块作为维吾尔语词法分析器的一部分,把词法分析器功能的F值从84.1%提高到了91.4%,同时维吾尔语中词缀数目最多、变形情况最复杂的动词词干的还原正确率也达到了88.6%,实际应用中完全可以被接受。 相似文献
3.
4.
5.
针对现有维吾尔语形态分析研究中存在的数据稀疏、模型构建复杂等问题,提出一种基于机器翻译的维吾尔语形态分析模型,即将维吾尔语词干提取(词性标注)任务中词干提取前(词性标注前)的句子看作是机器翻译模型训练过程中的源语言端,词干提取后(词性标注后)的句子看作是目标语言端;为了达到最佳的效果,加入了外部信息模块和联合校验模块以优化模型。实验结果表明,基于机器翻译框架的维吾尔语形态分析模型在词干提取、词性标注两个任务上优于其他模型。对比英语(词干提取、词性标注)、汉语(分词、词性标注)实验结果,提出的方法更适合维吾尔语形态分析。 相似文献
6.
维吾尔语名词构形词缀有限状态自动机的构造 总被引:1,自引:1,他引:1
该文主要阐述维吾尔语词干提取中使用的名词构形词缀分析DFA的构造过程。维吾尔语属于黏着语,所以维吾尔语自然语言处理系统必须实现词干提取。词干提取的主要任务从单词提取词干和连接词干词尾的构形词缀。维吾尔语单词的构形词缀按照一定的规则连接到词干词尾,这使得维吾尔语构形词缀的连接规则可用有限状态自动机形式化描述。该文首先介绍维吾尔语名词的形态结构,然后根据规则构造从右向左的有限状态自动机,最后对这个自动机进行方向翻转和转换确定自动机操作。 相似文献
7.
维吾尔语单词连接构形词缀时,经常发生元音弱化成央音的现象。但对已有形态变化的单词进行形态还原时,使用规则识别弱化央音的原音的效率一般在40%左右。提出基于噪声信道的维吾尔语央音原音识别模型。该模型以弱化词干词尾的二字符、三字符和最后音节作为上下文,建立语言模型和似然度计算公式。在开放测试中,模型的准确率达到82.45%,提高词干提取准确率15%。 相似文献
8.
9.
维吾尔语是形态变化复杂的黏着性语言,维吾尔语词干词缀切分对维吾尔语信息处理具有非常重要的意义,但到目前为止,维吾尔语词干提取的性能仍存在较大的改进空间。该文以N-gram模型为基本框架,根据维吾尔语的构词约束条件,提出了融合词性特征和上下文词干信息的维吾尔语词干提取模型。实验结果表明,词性特征和上下文词干信息可以显著提高维吾尔语词干提取的准确率,与基准系统比较,融入了词性特征和上下文词干信息的实验准确率分别达到了95.19%和96.60%。
相似文献
相似文献
10.
11.
12.
沿着基线并具有大量附加部分书写是维吾尔文一大特点,这些特点使复杂背景的彩色图像中维吾尔文字行与字的切分和识别成为一个既困难又有趣的问题。本文首先对复杂彩色图像进行灰度化,其次将彩色图像转换为灰度化的边缘图像,再对图像进行局域二值化,然后进行区域检测和边缘调整,初步实现了图像中维吾尔文字行的定位,紧接着根据定位结果从图像中切分出文字行,统计切分后的文字行在水平和垂直方向上的像素累计情况,查找最佳切分点,分离出文字行中的字母独立形式或几个字母连成的连体字母段。实验结果表明,文字行的切分准确率达到96%,字切分准确率达到98%以上。 相似文献
13.
14.
维吾尔语单词的构形词缀按照一定的规则连接到词干。维吾尔语的黏着言特点和构形词缀连接规则使得可以构造维吾尔语构形词缀的有限状态自动机。该文将详细介绍维吾尔语形容词构形词缀有限自动机的构造步骤。 相似文献
15.
口语理解(spoken language understanding, SLU)是面向任务的对话系统的核心组成部分,旨在提取用户查询的语义框架.在对话系统中,口语理解组件(SLU)负责识别用户的请求,并创建总结用户需求的语义框架, SLU通常包括两个子任务:意图检测(intent detection, ID)和槽位填充(slot filling, SF).意图检测是一个语义话语分类问题,在句子层面分析话语的语义;槽位填充是一个序列标注任务,在词级层面分析话语的语义.由于意图和槽之间的密切相关性,主流的工作采用联合模型来利用跨任务的共享知识.但是ID和SF是两个具有强相关性的不同任务,它们分别表征了话语的句级语义信息和词级信息,这意味着两个任务的信息是异构的,同时具有不同的粒度.提出一种用于联合意图检测和槽位填充的异构交互结构,采用自注意力和图注意力网络的联合形式充分地捕捉两个相关任务中异构信息的句级语义信息和词级信息之间的关系.不同于普通的同构结构,所提模型是一个包含不同类型节点和连接的异构图架构,因为异构图涉及更全面的信息和丰富的语义,同时可以更好地交互表征不同粒度节点之间的信息.此... 相似文献
16.
针对脱机手写维吾尔文本行图像中单词切分问题,提出了FCM融合K-means的聚类算法。通过该算法得到单词内距离和单词间距离两种分类。以聚类结果为依据,对文字区域进行合并,得到切分点,再对切分点内的文字进行连通域标注,进行着色处理。以50幅不同的人书写的维吾尔脱机手写文本图像为实验对象,共有536行和4?002个单词,正确切分率达到80.68%。实验结果表明,该方法解决了手写维吾尔文在切分过程中,单词间距离不规律带来的切分困难的问题和一些单词间重叠的问题。同时实现了大篇幅手写文本图像的整体处理。 相似文献