共查询到20条相似文献,搜索用时 62 毫秒
1.
为解决汉韩双语平行语料库资源匮乏以及传统句对齐算法面向跨语系语言准确率较低的问题,提出了融合特征的汉韩双语句对齐方法.首先将Bi-LSTM融入孪生神经网络构建句对齐模型,用以分别提取汉语和韩语句子的特征并进行对齐.之后基于语料的特点提取句对齐特征融入输入层.通过与传统Bi-LSTM和不同特征组合的孪生Bi-LSTM的对... 相似文献
2.
3.
4.
5.
将自然语言理解限定在领域范围内,便于自然语言理解系统的实现,有利于解决智能人机接口、自动建模等问题。详细地分析了其中的名词短语的语义特点,并分析了其处理过程。 相似文献
6.
现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短语向量构建模型,解决复杂短语的语义表示问题.然后,利用短语向量对每个候选短语计算主题权重,通过主题加权排序提高关键词抽取的效果.在公共数据集和学术论文数据上的实验表明,本文提出的方法能够有效提取与文本主题信息相关的关键短语,同时利用自编码器构造的短语向量可以更好地表示短语的语义信息. 相似文献
7.
8.
针对汉藏政府公文机器翻译的数据稀疏和构建大规模的语料库等关键问题,提出了一种基于规则的句级语料对齐技术。所提出的技术以汉藏政府公文的句子特点为依据,结合了基于长度和词汇的混合式对齐方法,在国家和省级层面的5个汉藏政府公文数据集上进行了测试,测试结果表明,准确率在66%到75%之间,减少了句级语料对齐所需的人力、物力和财力,同时在构建大规模语料上取得了较好的效果。 相似文献
9.
词向量作为自然语言处理的基础技术,随着大数据和深度神经网络的发展,其算法也随之得到了更好的发展,尤其是近些年来各类新式算法和思想层出不穷,使得自然语言处理的准确度得到极大的提升.在阐述各个词向量算法的同时,穿插例子和图表,使大众更加清晰透彻理解算法的过程和优缺点.通过对词向量算法的发展进行整体的回顾,加深对词向量的理解... 相似文献
10.
11.
词义消歧是自然语言处理领域的基本任务.在词语词向量表示的基础上,计算获得多义词语上下文窗口的向量表示.利用统计的多义词及词义个数,基于K-means算法聚类文本语料集中多义词的上下文窗口表示,在原始文本语料集中对多义词语根据聚类类别进行标记.在标记的文本语料集上,训练获得多义词语每个词义的向量表示.对句子中的多义词语,给出了一种基于多义词向量表示的词义消歧方法,实验结果显示该方法有效可行. 相似文献
12.
13.
14.
双语词典抽取任务是自然语言处理一个重要课题.本文基于替换方法重新训练词向量,使得词向量具有跨语言特性.本文主要研究了训练词典的获取方法,以及词向量共训练模型,在中英维基百科语料上进行实验.实验结果表明,按照确信度的方法选取训练词典,基于替换的方法得到的词向量跨语言性质较好,最终抽取的词典具有较高的准确率. 相似文献
15.
针对词语向量化表示的问题,根据词语词向量表示的思想以及借助多义词词典,在K-means聚类多义词语上下文表示的基础上,获得词语的多原型向量表示.对句子中的多义词语,通过计算词语多原型向量表示与词语上下文表示的相似度来进行词义消歧,根据2个句子集中共有词语和差异词语的词义相似度,给出一种基于词语多原型向量表示的句子相似度计算方法,实验结果显示了该方法的有效性. 相似文献
16.
赵志靖 《智能计算机与应用》2016,(4):5-8
语言调查采集到的数据存在相当程度的差异,需要进行二次加工。本文基于编辑距离算法实现从语言和方言词汇大数据中的词汇相似匹配及数据的对齐和定位。通过对达让语数据进行的3次实验发现,在做距离计算时,以词算而不是以词加括号内注释的整体去算的方式在保证抽取词汇召回率的基础上准确率会显著提升。实验结果表明,基于编辑距离的数据抽取方法是可行的,具有较好的检索效果。 相似文献
17.
18.
在分析传统FMM分词算法的原理与特点的基础上,利用词频统计结果,提出了一种改进的FMM算法,通过分析,改进的FMM算法可以进一步提高分词的效率. 相似文献
19.