首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 45 毫秒
1.
随着互联网多语言信息的发展,如何有效地表示不同语言所含的信息已成为自然语言信息处理的一个重要子任务,因而跨语言词向量成为当下研究的热点.跨语言词向量借助迁移学习将单语词向量映射到一个共享的低维空间,在不同语言间进行语法、语义和结构特征的迁移,能够对跨语言语义信息进行建模.B E RT模型通过大量语料的训练,得到一种通用...  相似文献   

2.
跨语言信息检索指以一种语言为检索词,检索出用另一种或几种语言描述的一种信息的检索技术,是信息检索领域重要的研究方向之一。近年来,跨语言词向量为跨语言信息检索提供了良好的词向量表示,受到很多学者的关注。该文首先利用跨语言词向量模型实现汉文查询词到蒙古文查询词的映射,其次提出串联式查询扩展、串联式查询扩展过滤、交叉验证筛选过滤三种查询扩展方法对候选蒙古文查询词进行筛选和排序,最后选取上下文相关的蒙古文查询词。实验结果表明: 在蒙汉跨语言信息检索任务中引入交叉验证筛选方法对信息检索结果有很大的提升。  相似文献   

3.
为了解决越汉跨语言事件检索中的查询翻译问题,该文提出了一种基于词向量的越汉跨语言事件检索方法。首先利用词向量构建事件关键词的汉语语义特征向量,然后计算越语的事件关键词的特征翻译向量,最后通过计算语义特征向量之间的相似度完成跨语言关键词对齐,从而实现查询关键词的自动翻译,进而完成跨语言事件检索。在构建的南海话题相关越汉语料库上进行的实验证明了该方法的有效性。  相似文献   

4.
跨语言摘要是将输入的源语言文本生成目标语言摘要的过程.目前跨语言摘要任务大多是借助于机器翻译,而针对越南语这类低资源语言,机器翻译效果不佳是汉越跨语言摘要面临的挑战.针对该问题,提出了一种基于词对齐的半监督对抗学习汉越跨语言摘要生成方法,其思想是将汉越双语对齐到同一空间,得到对齐的双语特征,然后同时利用双语特征生成跨语...  相似文献   

5.
《计算机工程》2017,(4):188-193
产品评论的快速增长以及质量的参差不齐,使得消费者获得有用的产品评论变得困难。为此,提出一种新的产品评论有用度评估方法。引入词向量作为评论文本的深度特征表示,结合结构特征、情感特征、元数据特征等训练回归模型,自动地对评论进行有用度评估并基于有用度对评论进行排序。在Amazon真实数据集上的实验结果表明,该方法在回归性能和排序性能上均优于UGR+LEN+STR方法和基准方法。另外通过挖掘特定领域的词向量特征,该向量模型在RMSE,NDCG等评价指标上可有效地改善评估效果。  相似文献   

6.
词汇的表示问题是自然语言处理的基础研究内容。目前单语词汇分布表示已经在一些自然语言处理问题上取得很好的应用效果,然而在跨语言词汇的分布表示上国内外研究很少,针对这个问题,利用两种语言名词、动词分布的相似性,通过弱监督学习扩展等方式在中文语料中嵌入泰语的互译词、同类词、上义词等,学习出泰语词在汉泰跨语言环境下的分布。实验基于学习到的跨语言词汇分布表示应用于双语文本相似度计算和汉泰混合语料集文本分类,均取得较好效果。  相似文献   

7.
跨语言文档聚类主要是将跨语言文档按照内容或者话题组织为不同的类簇。该文通过采用跨语言词相似度计算将单语广义向量空间模型(Generalized Vector Space Model, GVSM)拓展到跨语言文档表示中,即跨语言广义空间向量模型(Cross-Lingual Generalized Vector Space Model,CLGVSM),并且比较了不同相似度在文档聚类下的性能。同时提出了适用于GVSM的特征选择算法。实验证明,采用SOCPMI词汇相似度度量算法构造GVSM时,跨语言文档聚类的性能优于LSA。  相似文献   

8.
该文旨在探究深度学习中汉语字向量和词向量的有效结合方式。我们在以词作为基础语义单元和以字作为基础语义单元这两个方向进行探究,实验了字、词信息多种浅层结合方式和深层结合方式。为了验证该文提出的结合方式的有效性,我们改进了一种compare-aggregate模型,并在基于文档的问答系统上进行了实验。实验结果表明,有效的汉语字向量和词向量的结合方式超越了单独的字向量和词向量,提升了基于文档的问答系统的性能,使其结果与目前最好的结果可媲美。  相似文献   

9.

跨语言词向量表示旨在利用语言资源丰富的词向量提高语言资源缺乏的词向量表示. 已有方法学习2个词向量空间的映射关系进行单词对齐,其中生成对抗网络方法能在不使用对齐字典的条件下获得良好性能. 然而,在远语言对上,由于缺乏种子字典的引导,映射关系的学习仅依赖向量空间的全局距离,导致求解的词对存在多种可能,难以准确对齐. 为此,提出了基于双判别器对抗的半监督跨语言词向量表示方法. 在已有对抗模型基础上,增加一个双向映射共享的、细粒度判别器,形成具有双判别器的对抗模型. 此外,引入负样本字典补充预对齐字典,利用细粒度判别器进行半监督对抗学习,消减生成多种词对的可能,提高对齐精度. 在2个跨语言数据集上的实验效果表明,提出的方法能有效提升跨语言词向量表示性能.

  相似文献   

10.
跨语言摘要能将一种语言的文本总结为另一种语言的摘要,旨在帮助人们快速准确地获取陌生语言文本的关键信息.目前,针对该研究的全面综述工作十分稀缺.因此,本文回顾跨语言摘要的研究发展,在全面调研和深入分析的基础上,从研究方法、数据集、评价方法以及未来方向等4个方面对跨语言摘要的研究工作展开综述.首先,全面梳理了现有跨语言摘要方法,概括为“先翻译后摘要”、“先摘要后翻译”、间接学习方法、辅助学习方法以及特征增强方法等5大类,并进行了优缺点分析.其次,归纳和分析了跨语言摘要数据集的构建方法,并对现有数据集进行了详尽整理.然后,系统地总结和分析了跨语言摘要评价方法.最后,进一步讨论了未来研究方向.  相似文献   

11.
针对传统跨语言词嵌入方法在汉越等差异较大的低资源语言上对齐效果不佳的问题,提出一种融合词簇对齐约束的汉越跨语言词嵌入方法。通过独立的单语语料训练获取汉越单语词嵌入,使用近义词、同类词和同主题词3种不同类型的关联关系,充分挖掘双语词典中的词簇对齐信息以融入到映射矩阵的训练过程中,使映射矩阵进一步学习到不同语言相近词间具有的一些共性特征及映射关系,根据跨语言映射将两种语言的单语词嵌入映射至同一共享空间中对齐,令具有相同含义的汉语与越南语词嵌入在空间中彼此接近,并利用余弦相似度为空间中每一个未经标注的汉语单词查找对应的越南语翻译构建汉越对齐词对,实现跨语言词嵌入。实验结果表明,与传统有监督及无监督的跨语言词嵌入方法Multi_w2v、Orthogonal、VecMap、Muse相比,该方法能有效提升映射矩阵在非标注词上的泛化性,改善汉越低资源场景下模型对齐效果较差的问题,其在汉越双语词典归纳任务P@1和P@5上的对齐准确率相比最好基线模型提升了2.2个百分点。  相似文献   

12.
词语作为语言模型中的基本语义单元,在整个语义空间中与其上下文词语具有很强的关联性。同样,在语言模型中,通过上下文词可判断出当前词的含义。词表示学习是通过一类浅层的神经网络模型将词语和上下文词之间的关联关系映射到低维度的向量空间中。然而,现有的词表示学习方法往往仅考虑了词语与上下文词之间的结构关联,词语本身所蕴含的内在语义信息却被忽略。因此,该文提出了DEWE词表示学习算法,该算法可在词表示学习的过程中不仅考量词语与上下文之间的结构关联,同时也将词语本身的语义信息融入词表示学习模型,使得训练得到的词表示既有结构共性也有语义共性。实验结果表明,DEWE算法是一种切实可行的词表示学习方法,相较于该文使用的对比算法,DEWE在6类相似度评测数据集上具有优异的词表示学习性能。  相似文献   

13.
文本分类是目前深度学习方法被广泛应用的重要领域之一.本文设计了一种基于循环神经网络和胶囊网络的混合模型,使用胶囊网络来克服卷积神经网络对空间不敏感的缺点,学习文本局部与整体之间的关系特征,并使用循环神经网络中的GRU神经网络经过最大池化层来学习上下文显著信息特征,结合两者来优化特征提取过程从而提高文本分类效果.与此同时,在嵌入层中提出了一种基于缺失词补全的混合词向量方法,采用两种策略来减少缺失词过度匹配的现象以及降低词向量中的噪声数据出现的概率,从而获得语义丰富且少噪声的高质量词向量.在经典文本分类数据集中进行实验,通过与对比模型的最优方法进行比较,证明了该模型和方法能有效地提升文本分类准确度.  相似文献   

14.
针对日渐丰富的少数民族语言资源进行管理、研究和使用有着重要的应用价值。为了解决语言差异引起的语言鸿沟,针对中朝两种语言环境下的跨语言文本分类任务,提出了双语主题词嵌入模型。该文将词嵌入模型与主题模型扩展到双语环境,并将两种模型相结合,解决了歧义性对跨语言文本分类精度带来的影响。首先,在大规模单词级别对齐平行句对中训练中朝单词的词嵌入向量;其次,利用主题模型对中朝分类语料进行表示,并获得中朝单词的含有主题信息的词嵌入向量;最后,将中朝单词的主题词嵌入向量输入至文本分类器,进行模型的训练与分类预测。实验结果表明,中朝跨语言文本分类任务的准确率达到了91.76%,已达到实际应用的水平,同时该文提出的模型可以对一词多义单词的多个词义有很好的表示。  相似文献   

15.
情感分析是近些年自然语言处理的一个研究热点,一方面以word2vec为代表的预处理词向量技术得到了广泛应用,本文通过融合情感标签获得word2vec-ST词向量来提取句子的语义和情感信息并达到了较好的效果,另一方面,LSTM作为RNN的衍生模型已经成熟的应用到自然语言处理的模型构建当中,但LSTM在短文本和训练语料相对有限的情况下并没有展现出应有的优势,因此,借助于CNN在捕捉局部信息上的优势,本文提出了一种融合LSTM和CNN的注意力模型网络来提取文本的上下文信息,并通过实现attention机制的BILSTM来替代LSTM得到AT-BL C模型进而达到了更好的效果。本文对比分析了LSTM和CNN的两种融合方式并在标准数据集上进行了比较。实验结果表明,以融合情感信息的word2vec-ST为词向量层基础,AT-BL C确实获得了更好的准确率和F值。  相似文献   

16.
分布式词表示学习旨在用神经网络框架训练得到低维、压缩、稠密的词语表示向量。然而,这类基于神经网络的词表示模型有以下不足: (1) 罕见词由于缺乏充分上下文训练数据,训练所得的罕见词向量表示不能充分地反映其在语料中的语义信息; (2) 中心词语的反义词出现于上下文时,会使意义完全相反的词却赋予更近的空间向量表示; (3) 互为同义词的词语均未出现于对方的上下文中,致使该类同义词学习得到的表示在向量空间中距离较远。基于以上三点,该文提出了一种基于多源信息融合的分布式词表示学习算法(MSWE),主要做了4个方面的改进: (1) 通过显式地构建词语的上下文特征矩阵,保留了罕见词及其上下文词语在语言训练模型中的共现信息可以较准确地反映出词语结构所投影出的结构语义关联; (2) 通过词语的描述或解释文本,构建词语的属性语义特征矩阵,可有效地弥补因为上下文结构特征稀疏而导致的训练不充分; (3) 通过使用同义词与反义词信息,构建了词语的同义词与反义词特征矩阵,使得同义词在词向量空间中具有较近的空间距离,而反义词则在词向量空间中具有较远的空间距离; (4) 通过诱导矩阵补全算法融合多源特征矩阵,训练得到词语低维度的表示向量。实验结果表明,该文提出的MSWE算法能够有效地从多源词语特征矩阵中学习到有效的特征因子,在6个词语相似度评测数据集上表现出了优异的性能。  相似文献   

17.
安全生产事故的分析对应急管理能力提升具有重要意义.通过对安全生产案例的语义分析,利用Word2Vec词嵌入技术和聚类模型,选用CBOW+负采样技术实现词向量,并结合安全生产事故案例分类的数据特点,通过基于半监督学习的聚类模型算法,根据事故性质的认定特点,提出了一种优化初始聚类中心的算法,并利用K-means聚类算法实现安全事故文本案例的分类.实验表明该方法较好实现安全生产的事故案例分类,并对安全生产事故的多个维度分析具有很好借鉴意义.  相似文献   

18.
神经网络语言模型应用广泛但可解释性较弱,其可解释性的一个重要而直接的方面表现为词嵌入向量的维度取值和语法语义等语言特征的关联状况。先前的可解释性工作集中于对语料库训得的词向量进行知识注入,以及基于训练和任务的算法性能分析,对词嵌入向量和语言特征之间的关联缺乏直接的验证和探讨。该文应用基于语言知识库的伪语料法,通过控制注入语义特征,并对得到的词嵌入向量进行分析后取得了一些存在性的基础性结论: 语义特征可以通过控制注入到词嵌入向量中;注入语义特征的词嵌入向量表现出很强的语义合成性,即上层概念可以由下层概念表示;语义特征的注入在词嵌入向量的所有维度上都有体现。  相似文献   

19.
该文提出了一种基于情感词向量的情感分类方法。词向量采用连续实数域上的固定维数向量来表示词汇,能够表达词汇丰富的语义信息。词向量的学习方法,如word2vec,能从大规模语料中通过上下文信息挖掘出潜藏的词语间语义关联。本文在从语料中学习得到的蕴含语义信息的词向量基础上,对其进行情感调整,得到同时考虑语义和情感倾向的词向量。对于一篇输入文本,基于情感词向量建立文本的特征表示,采用机器学习的方法对文本进行情感分类。该方法与基于词、N-gram及原始word2vec词向量构建文本表示的方法相比,情感分类准确率更高、性能和稳定性更好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号