首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
近年来随着人工智能和深度学习的发展,在神经机器翻译(NMT)的加持下,机器翻译的水平取得了长足的进步,但是在较大语料的情况下才能取得好的效果.此外,NMT的成功需要依赖于大量高质量的双语语料作为训练数据.在英法等丰富资源的语种(Rich resource language)翻译任务上,神经机器翻译机器的表现几乎可以媲美人类的水平.对于一些小语种(俗称低资源语种:Low resource language),无法提供足够多的双语数据,导致NMT出现过拟合问题,从而降低翻译效果.据此本文以低资源的汉傣语翻译为例,针对神经机器在低资源汉傣语机器翻译表现不佳的问题现状,开展了如下研究:(1)构造了以词向量为基础的初始化模型,利用傣汉词向量空间对齐的方法,来初始化神经翻译模型的词嵌入层以提高翻译的性能;(2)设计了傣汉词向量空间的对齐方法;(3)提出了一种基于词对齐的神经机器翻译框架.通过汉/傣、傣/汉双向翻译实验证明,该方法可以分别使汉/傣、傣/汉机器翻译的BLEU值提高2.38个和0.43个BLEU点.  相似文献   

2.
神经机器翻译通过序列到序列的学习对翻译任务进行建模,目前使用注意力机制的神经机器翻译方法在多种语言对上都取得了很好的效果,但是在训练数据比较小的情况下(如汉语-越南语)神经机器翻译模型的性能并不理想.此外如何将统计机器翻译与神经机器翻译进行融合也是一个值得研究的问题.本文分析了记忆网络和神经机器翻译的特点,利用记忆网络对词汇翻译概率进行存储,将词汇翻译概率转化为向量表示,并与神经机器翻译模型进行融合,提出基于记忆网络融合词汇翻译概率的方法,并据此对神经机器翻译的解码进行指导.实验表明记忆网络是一种可行的翻译知识融合方式,并且在神经机器翻译模型中融入词汇翻译概率可以一定程度上解决训练数据小时模型训练不充分的问题.  相似文献   

3.
针对内蒙古地区机器翻译力量薄弱、技术落后等现状,提出一种基于实例的翻译方法,使用不同粒度的对齐技术对蒙汉双语语料库进行处理,根据相似度算法进行匹配和重组并生成译文.实验结果表明:利用实例库相似度检测的方法能够对特定领域的蒙古语做出有效的翻译,并在一定程度上提高翻译质量,在蒙汉机器翻译中具有较好的应用价值.  相似文献   

4.
针对现有代码漏洞检测方法误报率和漏报率较高的问题,提出基于上下文特征融合的代码漏洞检测方法.该方法将代码特征解耦分为代码块局部特征和上下文全局特征.代码块局部特征关注代码块中关键词的语义及其短距离依赖关系.将局部特征融合得到上下文全局特征从而捕捉代码行上下文长距离依赖关系.该方法通过局部信息与全局信息协同学习,提升了模型的特征学习能力.模型精确地挖掘出代码漏洞的编程模式,增加了代码漏洞对比映射模块,拉大了正负样本在嵌入空间中的距离,促使对正负样本进行准确地区分.实验结果表明,在9个软件源代码混合的真实数据集上的精确率最大提升了29%,召回率最大提升了16%.  相似文献   

5.
开源软件源代码缺陷分析已引起广泛关注,但各类程序都以二进制形式运行,目前仍缺少在有限时间内对大量二进制程序进行缺陷检测的有效方法。针对这一问题,提出了一种结合软件路径特征的卷积神经网络方法(Path-Based Convolution Neural Network, PB-CNN),用于二进制开源软件的缺陷检测。首先根据跳转指令将二进制程序分割为多个基本块并构建控制流图,然后遍历控制流图以提取软件路径特征,接着结合多通道卷积神经网络提取其深层特征并训练PB-CNN神经元参数,最后通过训练好的PB-CNN检测软件缺陷。实验结果表明,PB-CNN方法有效提取了二进制程序的路径特征,提高了缺陷检测精度。  相似文献   

6.
通过对二进制代码保护、代码混淆、病毒变形等技术的深入分析,结合指令等价变形、控制流混淆、动态加解密等技术、研究并实现了二进制代码混淆保护原型系统MEPE。通过理论分析,证明了变形的多样性效果;利用控制流混淆对变形后代码块进行“切片乱序”,由地址跳转表管理跳转地址,并通过动态加解密对其进行保护;深入分析循环体中被保护指令对时间开销的影响,提出了与指令循环深度相关联的迭代次数与切片粒度的计算方法。通过实验分析迭代次数、切片粒度对时间消耗的影响,验证了对循环体中被保护指令控制的作用和意义,以及保护效果的多样性。经过MEPE处理后的二进制代码在时间损耗较小的情况下,可有效增加攻击者静态和动态分析的难度,提高了二进制可执行代码的安全性。  相似文献   

7.
在文档相似性检测中,粗粒度会降低准确度,粒度过细又会大幅增加计算时间。针对基金项目相似性检测,在b位Minwise Hash算法的基础上,提出了一种细粒度文档相似性快速检测方法。先对文档进行预处理,提取文档正文,并生成分组指纹特征,再构建细粒度的分组指纹索引结构,利用海明距离来计算文档之间的相似性,以XML文档形式存储并显示相似信息。通过系统的实现,验证了该方法的有效性,且检索效率有所提高。  相似文献   

8.
目前智能合约漏洞检测技术手段单一,多数方法只针对合约的源代码,鲜有面向智能合约其他类型的安全检测.本文在仅给定智能合约二进制代码的情况下,针对最高频的可重入漏洞、委托调用漏洞和时间戳依赖漏洞,设计并实现了一种基于关键路径的智能合约漏洞检测方法.基于合约字节码构建智能合约执行控制流图;根据智能合约漏洞特点定义关键指令及规...  相似文献   

9.
二进制翻译中本地代码替换是实现消息传递接口(Message Passing Interface,MPI)并行程序跨架构移植的重要手段。通过调用本地代码实现库函数功能,本地代码替换技术保证功能的等价模拟。然而,现有的本地代码替换方法无法识别基于跳转指令实现的函数调用,导致MPI程序翻译运行出错。针对这一问题,提出一种基于地址重用的本地代码替换方法,通过向客户程序中目标函数的地址空间嵌入编码信息,将翻译系统控制流重定向至本地代码替换流程。实验结果表明,该方法能够正确处理基于跳转指令实现的函数调用,且相比于已有方法引入的运行时开销更低。  相似文献   

10.
提出了一种利用二进制文件的结构化信息进行软件同源性相似度计算的方法.针对克隆软件的特点,设计了基本块签名,在文件-函数-基本块的层次化结构基础上,构建了基于基本块属性和结构化信息的基本块相似度度量,利用函数的结构化信息构建函数权重计算文件相似度,来衡量原文件和目标文件的同源性.针对常见克隆手段进行测试,对所提出的加权相似度算法与不加权算法、主流二进制比对工具的检测结果进行对比.结果表明,加权方法能更准确地衡量出2个文件的相似程度.  相似文献   

11.
对时间序列的相似性度量提出了一种新方法.由于相似质点系的质心距离相近,则相似的时间序列质心也应相近.基于变换的时间序列,利用预处理的时间序列数据求得加权质量,继而得到时间序列的质心.通过度量时间序列质心的欧式距离,得到时间序列的相似程度.这种方法不仅适用于时间轴伸缩及其组合,而且对于弯曲的、不同长度的时间序列同样可以处理.  相似文献   

12.
基音周期的确定是语音处理领域中的一个尚未完全解决的基本问题。传统的基于自相关函数的估计基音周期的方法过于粗糙,而那些准确性高的方法计算太复杂,不适用于实时要求高的扬合。为了兼顾准确性与实时性,提出了一种基于多层次相似性检测机制的语音基频估计算法,该算法具有实时性好,易于硬件实现的特点。  相似文献   

13.
基于实例的机器翻译——方法和问题   总被引:1,自引:0,他引:1  
介绍了基于实例的机器翻译方法,并对基于实例的机器翻译中的若干问题,如双语实例的加工对齐、实例的相似度计算和实例模板提取等问题作了说明。  相似文献   

14.
僵尸网络利用诸如蠕虫、木马以及rootkit等传统恶意程序,进行分布式拒绝服务攻击、发送钓鱼链接、提供恶意服务,已经成为网络安全的主要威胁之一。由于P2P僵尸网络的典型特征是去中心化和分布式,相对于IRC、HTTP等类型的僵尸网络具有更大的检测难度。为了解决这一问题,该文提出了一个具有两阶段的流量分类方法来检测P2P僵尸网络。首先,根据知名端口、DNS查询、流计数和端口判断来过滤网络流量中的非P2P流量;其次基于数据流特征和流相似性来提取会话特征;最后使用基于决策树模型的随机森林算法来检测P2P僵尸网络。使用UNB ISCX僵尸网络数据集对该方法进行验证,实验结果表明,该两阶段检测方法比传统P2P僵尸网络检测方法具有更高的准确率。  相似文献   

15.
为了有效解决二进制搜索算法标签识别延时过长的问题,提出了二进制搜索算法的一种改进算法,通过设置堆栈,变量Count,引入了反向搜索的机制.仿真试验结果表明该改进算法显著地减少了读写器向标签发送的请求次数,解决了二进制搜索算法延时过长的问题,提高了标签识别的效率.  相似文献   

16.
该文通过改进字节对编码算法,提出了带字数阈值的藏文字节对编码算法,优化了基于注意力机制的汉藏神经机器翻译模型.收集整理了100万汉藏句对和20万汉藏人名地名词典,训练了汉藏神经机器翻译模型.通过测试和验证,模型的BLEU值达到36.84.该模型的命名实体翻译效果优于已商用汉藏在线翻译系统.同时,该文的神经机器翻译模型已...  相似文献   

17.
基于语料库的机器翻译系统   总被引:1,自引:0,他引:1  
基于语料库的机器翻译系统可分为两种:基于统计的机器翻译系统和基于实例的机器翻译系统。本文讨论这两种机器翻译系统的基本原理,并讨论了翻译记忆软件和本土化软件工具。  相似文献   

18.
相似性的度量是解决聚类问度量.本文探讨用相似性系数理论和信息熵理论两种方法去解决含有分类属性的聚类问题,证明了这两种方法的等效性,并给出了入侵检测聚类问题的一个形式化描述.  相似文献   

19.
介绍了机器翻译系统的模型建立和常用算法,在现代机器翻译技术中引入了神经网络和知识发现,并给出了一个框架和部分算法.  相似文献   

20.
有序平均距离部分码书搜索算法(MPS)是一种针对于图像矢量量化过程的码字快速搜索算法,为寻找初始匹配码字,MPS算法需要计算所有矢量与码书中所有码字之间的均值平方距离,对于n个矢量与长度为k的码书来说,此部分的计算量为O (nk+k log k),这限制了MPS的加速效果。针对此问题,本文提出了基于邻域相似性的图像码字快速搜索算法。首先,对原始码书根据码字分量和值按照从小至大排序获得排序码书;然后,在当前图像矢量的邻居矢量中确定候选初始匹配码字,再通过距离比较确定最终初始匹配码字;最后,以初始匹配码字为起始搜索点进行基于排序码书的码字搜索。算法将MPS算法中初始匹配码字选择计算量降低至O (n+k log k),并且具有与全搜索算法以及MPS算法一样的结果。不同算法的对比实验结果表明,FSNS算法具有最高的加速比,平均时间加速比为4.38~11.24,而MPS算法与ITIE算法分别为3.19~6.01与1.49~2.99。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号