期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

谭琪辉周兰江刘畅《中文信息学报》2021,35(10):64-72

双语句子相似度旨在计算不同语言句子间的语义相似程度,在信息检索、平行语料库构建、机器翻译等领域有重要作用。由于汉语、老挝语平行语料稀少,且老挝语在语义表达、句子结构上与汉语有明显差异,导致汉老双语句子相似度研究的难度较大。该文提出了一种融合文本特征的汉老双语句子相似度计算方法,并构建了句子相似度模型。首先,在句子相似度模型中将汉语、老挝语的词性、数字共现等文本特征与GloVe预训练词向量融合,以此丰富句子特征,提升模型计算准确率。其次,由基于自注意力的双向长短时记忆网络组成多层孪生网络来提取长距离上下文特征和深层次语义信息,其中自注意力机制可以保证语义信息的有效利用。最后,采用迁移学习的方法将通用模型参数初始化,并使用不同的微调参策略增强模型的泛化能力。实验表明,该文提出的方法,其召回率、准确率和F₁值分别达到了82.5%、85.78%和84.00%。相似文献

2.

融合词语多特征的汉老短文本相似度计算

郭雷周兰江周蕾越《小型微型计算机系统》2023,(4):759-765

词语作为文本构成中最具有语义表达的单位,将词语更多的特征如形态学、词性、词性权重等融入到词语语义的表达中,将提升文本相似度量的准确性.该文提出一种融合词语多特征的汉老短文本相似度计算方法,首先利用双向长短期记忆网络(BiLSTM)和卷积神经网络(CNN)分别提取汉老词语的形态学特征,将词向量拼接上形态学特征向量、词性向量、词性权重向量,然后利用BiLSTM和CNN提取汉老短文本的上下文特征和局部语义特征,接着加入ESIM交互注意力机制使汉老语义信息进行交互.最后计算汉老特征语义向量的相对差和相对积,将其结果拼接并输入到全连接层得到汉老双语短文本的相似度分数.实验结果表明,本文提出的方法在有限的语料下取得了更好的效果,F1值达到了78.67%. 相似文献

3.

融合CRF与规则的老挝语军事领域命名实体识别方法

何阳宇晏雷易绵竹李宏欣《计算机工程》2020,46(8):297-304

相似文献

4.

云南高职院校面向“走出去”企业老挝语语言培训模式探究

刘婷林惠张晖张琳《昆明冶金高等专科学校学报》2022,(5):28-32

随着国家“一带一路”项目的推进,“中老经济走廊建设”的签署,中老铁路已于2021年12月3日通车。这对云南各企业是一个新的机遇和挑战,为了应对中老经济飞速发展,企业“走出去”势在必行,对企业部分技术型人才进行老挝语语言服务培训迫在眉睫。以中国铁路昆明局集团“双骨干培养老挝语培训班”为调研对象,分析和探究适合“走出去”企业职工的老挝语语言培训模式。相似文献

5.

奉献与荣耀——在转型中启程的中水电公司老挝项目组

周双超郑斌王连生高峰翟蓓《中国三峡建设》2012,(5):12-17

2011年11月24日,我们乘坐东方航空公司航班从昆明起飞,大约一个半小时后,抵达美丽的老挝首都万象。11月25日,我们从万象驱车到南立1-2水电站项目。约二个半小时的车程,我们前后用了四个多小时,来到了此行的第一相似文献

6.

融合细粒度词特征的老挝语词性标注研究

唐文周兰江张建安《小型微型计算机系统》2022,(3):661-666

目前流行的词性标注方法严重依赖语料规模及人工提取特征的质量;然而,老挝语资源稀缺,语料及特征选取面临很大挑战,且老挝语句子本身存在普遍过长的特点.因此,该文提出一种融合细粒度词特征的老挝语词性标注方法,构建了融合细粒度词特征的Att-BiLSTM-CRF模型.首先,以老挝音素和声调符号作为基本单元来进行老挝细粒度词特征... 相似文献

7.

基于双向长短期记忆神经网络的老挝语分词方法

何力周兰江周枫郭剑毅《计算机工程与科学》2019,41(7):1312-1317

作为语言最小独立运行且有意义的单位,将连续型的老挝语划分成词是非常有必要的。提出一种基于双向长短期记忆BLSTM神经网络模型的老挝语分词方法,使用包含913 487个词的人工分词语料来训练模型,将老挝语分词任务转化为基于音节的序列标注任务,即将老挝语音节标注为词首(B)、词中(M)、词尾(E)和单独成词(S)4个标签。首先将老挝语句子划分成音节并训练成向量,然后把这些向量作为BLSTM神经网络模型的输入来预估该音节所属标签,再使用序列推断算法确定其标签,最后使用人工标注的分词语料进行实验。实验表明,基于双向长短期记忆神经网络的老挝语分词方法在准确率上达到了87.48%,效果明显好于以往的分词方法。相似文献

8.

融合词结构特征的多任务老挝语词性标注方法

王兴金周兰江张建安周枫《中文信息学报》2019,33(11):39-45

目前,老挝语词性标注研究处于初期,可用标注语料有限,且老挝语吸收了多种外来词,导致标注语料库存在大量稀疏词。多任务学习是有效识别稀疏词的一种方法,该文研究了老挝词的结构特征,并构建了结合词性标注损失和主辅音辅助损失的多任务老挝语词性标注模型。老挝词有很多词缀可以表达词性信息,因此模型还采用了字符级别的词向量来获取这些词缀信息。特别地,老挝语的句式较长,模型用注意力机制防止长远上下文特征丢失。实验结果表明: 相比其他研究方法,该模型的词性标注准确率在有限标注语料下取得更好的表现(93.24%)。相似文献

9.

一种基于LSTM的端到端多任务老挝语分词方法

郝永彬周兰江刘畅《中文信息学报》2021,35(9):75-81

老挝语是一种无空格切分的字母语言,在进行自然语言处理工作时需要首先进行分词处理。现有分词算法主要为首先使用规则进行音节切分,然后根据音节切分结果进行老挝语分词,存在错误传递等问题。该文提出一种基于神经网络的端到端老挝语分词方法,基于多任务联合学习思想,将老挝语音节切分与分词工作进行结合,实现了基于双向长短时记忆循环神经网络(BiLSTM)的端到端老挝语分词模型。实验表明,端到端的老挝语分词模型准确率达到89.02%,较以往分词模型有所提升。相似文献

10.

融合词性位置特征的多任务汉老双语短文本相似度计算方法

李炫达周兰江张建安《中文信息学报》2023,(4):18-27+33

老挝语属于低资源语言,在有限的语料中获取更多的语义信息可以有效解决汉语和老挝语短文本相似度计算不准确的问题。多任务学习是有效获取语义信息的一种方法,该文对汉语和老挝语短文本特点进行研究后,提出一种融合词性位置特征的多任务汉老双语短文本相似度计算方法：首先,通过词性位置特征权重和TF-IDF权重加权表征双语短文本的同时,使用改进后的TextRank算法获取双语短文本的核心句;然后,通过带有自注意力机制的双向长短时记忆网络分别计算双语短文本的相似度与双语短文本对应核心句的相似度;最后,使用多任务学习方法,将双语短文本的核心句相似度计算作为辅助任务,获取更多的语义信息进行共享以提升汉老双语短文本相似度计算模型的性能。实验结果表明,该文提出的方法在有限的训练语料下取得了更好的效果,F₁值达76.16%。相似文献