首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
为解决汉韩双语平行语料库资源匮乏以及传统句对齐算法面向跨语系语言准确率较低的问题,提出了融合特征的汉韩双语句对齐方法.首先将Bi-LSTM融入孪生神经网络构建句对齐模型,用以分别提取汉语和韩语句子的特征并进行对齐.之后基于语料的特点提取句对齐特征融入输入层.通过与传统Bi-LSTM和不同特征组合的孪生Bi-LSTM的对...  相似文献   

2.
3.
针对机器翻译研究中缺乏主从对齐标注的问题,提出一种基于人工标注结合基于LSTM(长短期记忆)的汉英主从对齐语料标注方法,并开发语料标注平台.使用国际机器翻译提供的语料,从中选取12500句手工进行主从句及句子对齐的标注,将标注后的语料进行分词、词向量化操作,使用LSTM网络进行训练得到自动标注模型,并进行自动标注.为保...  相似文献   

4.
《现代电子技术》2016,(15):108-111
针对双语术语抽取系统在处理多种语言时大量耗费人力、财力、物力等的局限性问题,提出基于平行语料库的双语术语抽取方法,同时,分析此方法的不足,结合多种方法进行改善。在此基础上开发了一个双语术语抽取系统,并通过实验分析了相似度函数、语料规模以及改进后方法对术语抽取结果的影响,而且该系统已经作为商品化软件投入实际应用。  相似文献   

5.
将自然语言理解限定在领域范围内,便于自然语言理解系统的实现,有利于解决智能人机接口、自动建模等问题。详细地分析了其中的名词短语的语义特点,并分析了其处理过程。  相似文献   

6.
孙新  盖晨  申长虹  张颖捷 《电子学报》2021,49(9):1682-1690
现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短语向量构建模型,解决复杂短语的语义表示问题.然后,利用短语向量对每个候选短语计算主题权重,通过主题加权排序提高关键词抽取的效果.在公共数据集和学术论文数据上的实验表明,本文提出的方法能够有效提取与文本主题信息相关的关键短语,同时利用自编码器构造的短语向量可以更好地表示短语的语义信息.  相似文献   

7.
基于词典和句子的长度和位置信息的双语句子对齐方法在解决真实双语文本对齐问题时具有一定的普适性。在分析该方法的基础上,提出了在解决某一指定领域内的维汉互译文本时,对基于长度和位置信息的双语句子对齐方法的改进,在此方法引入维语与汉语句子长度比的期望值,能够使数据更平滑,更有效地解决了维汉互译文本句子对齐的问题。  相似文献   

8.
针对汉藏政府公文机器翻译的数据稀疏和构建大规模的语料库等关键问题,提出了一种基于规则的句级语料对齐技术。所提出的技术以汉藏政府公文的句子特点为依据,结合了基于长度和词汇的混合式对齐方法,在国家和省级层面的5个汉藏政府公文数据集上进行了测试,测试结果表明,准确率在66%到75%之间,减少了句级语料对齐所需的人力、物力和财力,同时在构建大规模语料上取得了较好的效果。  相似文献   

9.
词向量作为自然语言处理的基础技术,随着大数据和深度神经网络的发展,其算法也随之得到了更好的发展,尤其是近些年来各类新式算法和思想层出不穷,使得自然语言处理的准确度得到极大的提升.在阐述各个词向量算法的同时,穿插例子和图表,使大众更加清晰透彻理解算法的过程和优缺点.通过对词向量算法的发展进行整体的回顾,加深对词向量的理解...  相似文献   

10.
卢朝华  黄广君  郭志兵 《通信技术》2010,43(5):181-183,186
汉语介词短语识别的方法是基于最大熵的统计模型,通过最大熵的介词短语边界自动识别和依存语法错误校正两个处理阶段:先由最大熵模型对介词短语进行识别,然后利用依存树库中介词短语的左右边界词语的依存语法知识,对介词短语右边界的错误识别进行校正,完成了对经过分词和词性标注的句子进行介词短语界定的任务,为进一步的句法分析工作打下良好的基础。实验表明该方法是行之有效的。  相似文献   

11.
词义消歧是自然语言处理领域的基本任务.在词语词向量表示的基础上,计算获得多义词语上下文窗口的向量表示.利用统计的多义词及词义个数,基于K-means算法聚类文本语料集中多义词的上下文窗口表示,在原始文本语料集中对多义词语根据聚类类别进行标记.在标记的文本语料集上,训练获得多义词语每个词义的向量表示.对句子中的多义词语,给出了一种基于多义词向量表示的词义消歧方法,实验结果显示该方法有效可行.  相似文献   

12.
词向量的准确性在较大程度上影响了这些自然语言处理任务的运行。词向量通过词嵌入产生,在词嵌入的方法中,都将目标单词及其上下文作为训练的输入,因此上下文的选定对词嵌入有着重要的影响。文中通过使用word2vec词嵌入方法,研究各种变体上下文窗口对词嵌入准确度的影响。根据上下文窗口的各种宽度、偏移量、权值进行了一系列实验。从实验结果中发现,上下文窗口的变化只会对整体训练结果的准确性造成很小的影响,然而对于其中具体的各个单词却有显著影响。从而得出结论,即大量单词各自所适应的上下文窗口区别较大,而统一的上下文窗口难以实现对全部单词的最佳训练。  相似文献   

13.
句子相似度的计算在自然语言处理的各个领域有很广泛的应用,但跨语言的句子相似度计算方法却非常少。文中提出一种基于互译特征词对匹配,构建老-汉双语句子相似度计算方法,改进了传统的依赖于词形词序通过计算相同词个数和共有单词的位置信息的相似度计算方法,充分考虑了老挝语和汉语句子中的词汇互译信息、相似概率,避免了由于特征词位置导致的精度丢失。此方法用来最终识别相似度较高的老-汉双语平行句对,依据相似度对源句子和目标句子进行对齐,在老-汉双语平行语料库的建设中使用。实验结果表明,此方法在一定程度上提高了老-汉双语句子相似度计算的准确率。  相似文献   

14.
双语词典抽取任务是自然语言处理一个重要课题.本文基于替换方法重新训练词向量,使得词向量具有跨语言特性.本文主要研究了训练词典的获取方法,以及词向量共训练模型,在中英维基百科语料上进行实验.实验结果表明,按照确信度的方法选取训练词典,基于替换的方法得到的词向量跨语言性质较好,最终抽取的词典具有较高的准确率.  相似文献   

15.
针对词语向量化表示的问题,根据词语词向量表示的思想以及借助多义词词典,在K-means聚类多义词语上下文表示的基础上,获得词语的多原型向量表示.对句子中的多义词语,通过计算词语多原型向量表示与词语上下文表示的相似度来进行词义消歧,根据2个句子集中共有词语和差异词语的词义相似度,给出一种基于词语多原型向量表示的句子相似度计算方法,实验结果显示了该方法的有效性.  相似文献   

16.
语言调查采集到的数据存在相当程度的差异,需要进行二次加工。本文基于编辑距离算法实现从语言和方言词汇大数据中的词汇相似匹配及数据的对齐和定位。通过对达让语数据进行的3次实验发现,在做距离计算时,以词算而不是以词加括号内注释的整体去算的方式在保证抽取词汇召回率的基础上准确率会显著提升。实验结果表明,基于编辑距离的数据抽取方法是可行的,具有较好的检索效果。  相似文献   

17.
《信息技术》2016,(11):152-156
汉语词典机制很大程度上影响中文分词的效率。为了提高现有基于词典的分词机制的查询效率,在双哈希词典机制和整词二分法相结合的基础上提出了一种有效的中文分词词典机制——双哈希编码分词词典机制。首字采用散列表保存,剩余字符逐个拼接计算其编码后放入余词散列表中,并加入状态值来减少匹配次数。实验结果表明该分词机制节省了内存空间和提高了匹配速度,方便词典更新与维护。  相似文献   

18.
崔虹燕 《信息技术》2008,32(4):124-125
在分析传统FMM分词算法的原理与特点的基础上,利用词频统计结果,提出了一种改进的FMM算法,通过分析,改进的FMM算法可以进一步提高分词的效率.  相似文献   

19.
英语基本名词短语识别技术研究   总被引:1,自引:0,他引:1  
梁颖红  赵铁军  岳琪 《信息技术》2004,28(12):22-24,79
基本名词短语识别是自然语言处理领域的非常重要的子任务。文中总结了英语名词短语识别的一些代表性的方法并对识别结果进行了比较和对照,介绍了识别名词短语所需的知识、结果的表示和评价标准;最后指出了目前名词短语识别的发展趋势。该研究对相关领域研究起到借鉴作用。  相似文献   

20.
汉语自动分词是进行中文信息处理的基础。目前,困扰汉语自动分词的一个主要难题就是新词自动识别,尤其是非专名新词的自动识别。同时,新词自动识别对于汉语词典的编纂也有着极为重要的意义。提出一种新的未登录词识别方法,该方法混合了互信息、信息熵及词频等3个评价指标评价新词,并在此基础上添加了垃圾串过滤机制,大幅度提高了新词识别准确率和召回率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号