共查询到19条相似文献,搜索用时 78 毫秒
1.
汉语-越南语跨语言事件检索任务是指根据输入的汉语查询检索表达相同事件的越南语文档.现有的跨语言检索模型在汉语-越南语低资源检索上对齐效果不佳,并且单纯的语义匹配检索难以理解复杂查询的事件语义信息.针对目标问题,文中提出融入事件知识的汉语-越南语跨语言事件检索模型,构建汉语-越南语跨语言事件预训练模块,进行持续的预训练,改善模型在汉语-越南语低资源语言上的表征效果.并且基于对比学习,对事件知识的掩盖预测值与真实值进行差异判别,促使模型更好地理解和捕捉事件知识特征.在跨语言事件检索任务和问答任务上的实验表明,文中方法性能有所提升. 相似文献
2.
3.
跨语言摘要是将输入的源语言文本生成目标语言摘要的过程.目前跨语言摘要任务大多是借助于机器翻译,而针对越南语这类低资源语言,机器翻译效果不佳是汉越跨语言摘要面临的挑战.针对该问题,提出了一种基于词对齐的半监督对抗学习汉越跨语言摘要生成方法,其思想是将汉越双语对齐到同一空间,得到对齐的双语特征,然后同时利用双语特征生成跨语... 相似文献
4.
针对传统跨语言词嵌入方法在汉越等差异较大的低资源语言上对齐效果不佳的问题,提出一种融合词簇对齐约束的汉越跨语言词嵌入方法。通过独立的单语语料训练获取汉越单语词嵌入,使用近义词、同类词和同主题词3种不同类型的关联关系,充分挖掘双语词典中的词簇对齐信息以融入到映射矩阵的训练过程中,使映射矩阵进一步学习到不同语言相近词间具有的一些共性特征及映射关系,根据跨语言映射将两种语言的单语词嵌入映射至同一共享空间中对齐,令具有相同含义的汉语与越南语词嵌入在空间中彼此接近,并利用余弦相似度为空间中每一个未经标注的汉语单词查找对应的越南语翻译构建汉越对齐词对,实现跨语言词嵌入。实验结果表明,与传统有监督及无监督的跨语言词嵌入方法Multi_w2v、Orthogonal、VecMap、Muse相比,该方法能有效提升映射矩阵在非标注词上的泛化性,改善汉越低资源场景下模型对齐效果较差的问题,其在汉越双语词典归纳任务P@1和P@5上的对齐准确率相比最好基线模型提升了2.2个百分点。 相似文献
5.
孙凌浩 《计算机工程与应用》2021,57(10):94-100
随着深度学习技术的应用,自然语言处理领域得到快速发展,为提高中文命名实体识别效果,提出一种新的方法,利用英文模型抽取信息辅助中文命名实体识别.该方法使用翻译模型将中文翻译为英文,然后利用英文命名实体识别模型抽取特征,再利用翻译模型的注意力权重进行信息迁移,将预训练的英文命名实体识别模型提取的特征用于中文命名实体识别.该... 相似文献
6.
7.
跨语言信息检索研究进展 总被引:12,自引:0,他引:12
随着互联网资源的多语言性和用户所使用语言的日益多样性,跨语言信息检索成为越来越重要的研究领域。本文介绍了该领域为解决语言问的翻译障碍而研究的各种解决方法并且对汉英跨语言信息检索所面对的独特难点进行了分析,同时本文对国际上重要的跨语言信息检索系统评测会议进行了简单介绍。 相似文献
8.
基于神经网络的触发词抽取模型利用实体信息判别触发词,但大量无关实体会影响触发词抽取效果。提出一种借助局部实体特征的事件触发词抽取方法,该方法先初步过滤无关实体,并将保留实体分为核心与非核心2类分别进行建模。利用卷积神经网络(CNN)抽取局部特征的特性,从众多实体中定位有助于触发词识别的局部重要实体,采用注意力机制提高其权重,同时利用有效非核心实体的语义排除干扰实体,从而借助重要实体的特征信息判别触发词。在特定和通用领域事件语料库上的实验结果均表明,该方法能够减少无关实体对触发词抽取的干扰,其触发词抽取性能的F1值比基准系统最高可提升0.017。 相似文献
9.
10.
检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作。本文提出一种改进的跨语言相似文档检索算法,该算法使用双语词典或统计翻译模型作为双语知识库,查找两篇文档的共同翻译词对,把翻译词对的权重作为一种特征来进行相似度计算,用Dice方法的改进算法计算双语文档的相似度。在实验中,统计检索文档的译文排在检索结果前 N位的总次数来评价算法的性能,并使用了两个噪音数据集来评价算法的有效性。实验表明,在噪音数据干扰比较大的情况下,译文排在检索结果前5位的译文结果接近90%。实验证明,翻译词对的权重对于相似度计算有很大帮助,本算法可以有效地发现一种语言书写的文档在另一种语言中的译稿。 相似文献
11.
跨语言信息检索指以一种语言为检索词,检索出用另一种或几种语言描述的一种信息的检索技术,是信息检索领域重要的研究方向之一。近年来,跨语言词向量为跨语言信息检索提供了良好的词向量表示,受到很多学者的关注。该文首先利用跨语言词向量模型实现汉文查询词到蒙古文查询词的映射,其次提出串联式查询扩展、串联式查询扩展过滤、交叉验证筛选过滤三种查询扩展方法对候选蒙古文查询词进行筛选和排序,最后选取上下文相关的蒙古文查询词。实验结果表明: 在蒙汉跨语言信息检索任务中引入交叉验证筛选方法对信息检索结果有很大的提升。 相似文献
12.
Applying EuroWordNet to Cross-Language Text Retrieval 总被引:1,自引:0,他引:1
Julio Gonzalo Felisa Verdejo Carol Peters Nicoletta Calzolari 《Computers and the Humanities》1998,32(2-3):185-207
We discuss ways in which EuroWordNet (EWN) can be used in multilingual information retrieval activities, focusing on two approaches to Cross-Language Text Retrieval that use the EWN database as a large-scale multilingual semantic resource. The first approach indexes documents and queries in terms of the EuroWordNet Inter-Lingual-Index, thus turning term weighting and query/document matching into language-independent tasks. The second describes how the information in the EWN database could be integrated with a corpus-based technique, thus allowing retrieval of domain-specific terms that may not be present in our multilingual database. Our objective is to show the potential of EuroWordNet as a promising alternative to existing approaches to Cross-Language Text Retrieval. 相似文献
13.
针对用户获取事件类信息的需求,在分析Web 新闻特征、事件多要素检索特点的基础上,研究了面向Web 新闻的事件多要素检索方法.首先,提出了面向Web 新闻的事件多要素检索模型;然后,使用BNF(Backus-Naur form)形式化定义了事件多要素查询项;最后,结合事件的动作要素、Web 新闻标题的重要性及事件项与约束项之间的距离,提出了事件查询项与文档相关性的计算方法.设置了16 个事件多要素查询项,基于Baidu 搜索引擎对P@n 指标进行了实验分析,所提方法得到的平均P@10 结果为0.87,平均P@20 结果为0.83.对16 个事件查询主题,通过人工标注语料的方法对F-measure 指标进行了实验分析,所提方法得到的平均F-measure 为0.74.结果表明,所提方法对事件多要素的检索较为有效. 相似文献
14.
15.
基于英汉机译实现跨语言信息检索 总被引:8,自引:0,他引:8
随着日益增长的大量信息成为可利用的、用户面对查询一个多语种文本集合的情形,变得越来越普遍。这就产生一个非常重要的问题一以一种语言描述的用户查询与以不同语言书写的文本之间的匹配问题,也就是一种如何跨越语言界限的问题,即跨语言信息检索(Cross-Language Information Retrievat,CLIR)。针对该项任务建立了一个面向英汉的跨语言信息检索系统,并以此为基础提交了相关的几组运行结果。同时,结合所构建的汉语IR系统,实现完整的英一汉CLIR过程。 相似文献
16.
17.
在线事件检索是针对事件查询,按时间序迭代返回小批量数据集中事件相关文档的检索任务。其目标是在时间轴上不断收集新鲜的事件文档,是进行一系列事件相关工作的重要基础。面对此任务,传统方法采用先进的检索模型来提升检索精度,然而却没有考虑事件本身的特性。针对这一问题,该文尝试使用两类图(事件关键词共现图、融合事件类型的二部图)对事件建模,提出了一种基于事件图的在线检索框架。案例分析与在两个公开的TREC数据集上的实验结果表明,该文方法显著提升了事件检索精度(P@10最高增幅达30%,平均增幅5.85%),且能自适应在线检索环境,支持事件的演变分析。 相似文献
18.
设计与实现了基于语句的汉英跨语言检索系统的关键词提取模块,关键词提取模块包括中文关键词提取和翻译转换两部分,此模块为后续的检索模块提供输入信息.其性能及效率对整个跨语言检索系统有重要影响。该文首先通过Dijkstra算法的改进方法求解分词的最短路径,实现了汉语检索语句的分词处理。然后以汉英双语词典为基础,对语法提取后的中文关键词实现了汉英翻译转换。最后提取的关键词供检索使用,实验结果表明用本文方法提取的关键词能满足检索要求。 相似文献