排序方式: 共有46条查询结果,搜索用时 15 毫秒
11.
12.
汉越文本相似度计算是实现汉越文本理解和文本分类的基础.目前使用神经网络来计算文本相似度是一个有效方法,但由于文本较长、冗余信息较多,神经网络难以有效捕获文本间的相似信息,同时汉-越平行语料稀缺导致模型泛化性能一般,此方法受到一定限制.故提出一种融合关键词和语义特征的汉越文本相似度计算方法.针对文本较长冗余信息较多,提出使用文本关键词来获得文本关键信息以压缩文本减少冗余,同时计算出文本间关键词相似信息;针对汉-越平行语料稀缺,提出使用知识蒸馏的方法来训练神经网络来对文本进行编码,得到上下文语义特征;最后将词的相似信息和上下文语义特征融合实现文本相关性判断.实验表明,本文提出的方法能有效提升汉-越文本相似度计算的准确率. 相似文献
13.
缅甸语属于低资源语言,网络中获取大规模的汉-缅双语词汇一定程度上可以缓解汉-缅机器翻译中面临句子级对齐语料匮乏的问题.为此,本文提出了一种融合主题及上下文特征的汉缅双语词汇抽取方法.首先利用LDA主题模型获取汉缅文档主题分布,并通过双语词向量表征将跨语言主题向量映射到共享的语义空间后抽取同一主题下相似度较高的词作为汉-缅双语候选词汇,然后基于BERT获取候选双语词汇相关上下文的词汇语义表征构建上下文向量,最后通过计算候选词的上下文向量的相似度对候选双语词汇进行加权得到质量更高的汉缅互译词汇.实验结果表明,相对于基于双语词典的方法和基于双语LDA+CBW的方法,本文提出的方法准确率上分别提升了11.07%和3.82%. 相似文献
14.
缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题。首先,使用单语LDA主题模型分别抽取汉语、缅甸语的主题,得到对应的主题分布表示;其次,将抽取到的汉缅主题词进行表征得到单语的主题词向量,利用汉缅双语词典将汉语、缅甸语单语主题词向量映射到共享的语义空间,得到汉缅双语主题词向量,最后通过计算汉语、缅甸语主题相似度获取汉缅双语可比文档。实验结果表明,该文提出的方法得到的F1值比基于双语词向量方法提升了5.6%。 相似文献
15.
伪平行句对抽取是缓解汉-越低资源机器翻译中数据稀缺问题的关键任务,同时也是提升机器翻译性能的重要手段。传统的伪平行句对抽取方法都是基于语义相似性度量,但是传统基于深度学习框架的语义表征方法没有考虑不同词语语义表征的难易程度,因此导致句子语义信息不充分,提取到的句子质量不高,噪声比较大。针对此问题,该文提出了一个双向长短期记忆网络加语义自适应编码的语义表征网络框架,根据句子中单词表征难易的不确定性,引导模型使用更深层次的计算。具体思路为: 首先,对汉语和越南语句子进行编码,基于句子中单词语义表征的难易程度,自适应地进行表征,深度挖掘句子中不同单词的语义信息,实现对汉语和越南语句子的深度表征;然后,在解码端将深度表征的向量映射到统一的公共语义空间中,最大化表示句子之间的语义相似度,从而提取更高质量的汉-越伪平行句子。实验结果表明,相比于基线模型,该文提出的方法在F1得分上提升5.09%,同时将提取到的句子对用于训练机器翻译模型,实验结果表明翻译性能的显著提升。 相似文献
16.
问句匹配是问答系统的重要任务,当前方法通常采用神经网络建模两个句子的语义匹配程度.但是,在法律领域中,问句常存在文本表征稀疏、法律词的专业性较强、句子蕴含法律知识不足等问题.因此,通用领域的深度学习文本匹配模型在法律问句匹配任务上效果并不好.为了让模型更好的理解法律问句的含义、建模法律领域知识,首先构建一个法律领域知识库,在此基础上提出一种融合法律领域知识(如法律词汇和法律法条)的问句匹配模型.具体地,构建了合同纠纷、离婚、交通事故、劳动工伤、债务债权等5种法律纠纷类别下的法律词典,并且收集了相关法律法条,构建法律领域知识库.在问句匹配中,首先查询法律知识库检索问句对所对应的法律词汇和法律法条,进而通过交叉关注模型同时建模问句、法律词汇、法律法条三者之间的关联,最终实现更精准的问句匹配,在多个法律类别下的实验表明提出的方法能有效提升问句匹配性能. 相似文献
17.
研究低资源语言的词性标注和依存分析对推动低资源自然语言处理任务有着重要的作用。针对低资源语言词嵌入表示,已有工作并没有充分利用字符、子词层面信息编码,导致模型无法利用不同粒度的特征。对此,该文提出融合多粒度特征的词嵌入表示,利用不同的语言模型分别获得字符、子词以及词语层面的语义信息,将三种粒度的词嵌入进行拼接,达到丰富语义信息的目的,缓解由于标注数据稀缺导致的依存分析模型性能不佳的问题。进一步将词性标注和依存分析模型进行联合训练,使模型之间能相互共享知识,降低词性标注错误在依存分析任务上的线性传递。以泰语、越南语为研究对象,在宾州树库数据集上的试验表明,该文方法相比于基线模型的UAS、LAS、POS均有明显提升。 相似文献
18.
RDAQAS中问句相似度计算方法研究 总被引:2,自引:0,他引:2
在受限领域自动应答系统(RDAQAS)中,以“知网”和领域本体库为基础,计算目标问句和问句语料库中问句的相似度,从中寻找最相近问句,最终提取答案的方式,是一种很实用的自动应答实现模式.文中介绍了金融领域本体库、问句语料库等语义资源的构建方法,提出了基于关键词空间向量模型和基于语义概念空间向量模型的问句相似度计算方法,并对其实现过程进行了详细描述,最后给出了两种方法的具体的问句相似度计算对比实验实例. 相似文献
19.
在自然语言问题中,由于知识库中关系表达的多样化,通过表示学习匹配知识库问答的答案仍是一项艰巨任务.为了弥补上述不足,文中提出融合事实文本的知识库问答方法,将知识库中的实体、实体类型和关系转换为事实文本,并使用双向Transformer编码器(BERT)进行表示,利用BERT丰富的语义模式得到问题和答案在低维语义空间中的... 相似文献
20.
针对神经机器翻译中资源稀缺的问题,提出了一种基于双向依存自注意力机制(Bi-Dependency)的依存句法知识融合方法。首先,利用外部解析器对源句子解析得到依存解析数据;然后,将依存解析数据转化为父词位置向量和子词权重矩阵;最后,将依存知识融合到Transformer编码器的多头注意力机制上。利用Bi-Dependency,翻译模型可以同时对父词到子词、子词到父词两个方向的依存信息进行关注。双向翻译的实验结果表明,与Transformer模型相比,在富资源情况下,所提方法在汉-泰翻译上的BLEU值分别提升了1.07和0.86,在汉-英翻译上的BLEU值分别提升了0.79和0.68;在低资源情况下,所提方法在汉-泰翻译上的BLEU值分别提升了0.51和1.06,在汉-英翻译上的BLEU值分别提升了1.04和0.40。可见Bi-Dependency为模型提供了更丰富的依存信息,能够有效提升翻译性能。 相似文献