首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
汉缅双语词典是开展机器翻译、跨语言检索等研究的重要数据资源.当前在种子词典的基础上使用迭代自学习的方法在平行语料中抽取双语词典取得了较好的效果,然而针对低资源语言汉语-缅语的双语词典抽取任务,由于双语平行资源匮乏,基于迭代自学习的方法不能得到有效的双语词向量表示,致使双语词典抽取模型准确度较低.研究表明,可比语料中相似...  相似文献   

2.
缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题。首先,使用单语LDA主题模型分别抽取汉语、缅甸语的主题,得到对应的主题分布表示;其次,将抽取到的汉缅主题词进行表征得到单语的主题词向量,利用汉缅双语词典将汉语、缅甸语单语主题词向量映射到共享的语义空间,得到汉缅双语主题词向量,最后通过计算汉语、缅甸语主题相似度获取汉缅双语可比文档。实验结果表明,该文提出的方法得到的F1值比基于双语词向量方法提升了5.6%。  相似文献   

3.
跨语言知识链接是指在描述相同内容的不同语言的在线百科文章之间建立联系。跨语言知识链接可分为候选集选择和候选集排序两部分。首先,把候选集选择问题转换为跨语言信息检索问题,提出一种将标题与关键词相结合从而生成查询的方法,该方法将候选集选择的召回率大幅提高至93.8%;在候选集排序部分,提出一种融合双语主题模型及双语词向量的排序模型,实现了英文维基百科和中文百度百科之间军事领域的跨语言知识链接。实验结果表明,该模型取得了75%的准确率,显著提高了跨语言知识链接的性能,并且提出的方法不依赖于语言特性和领域特性,因此可以很容易地扩展至其他语言和其他领域的跨语言知识链接。  相似文献   

4.
基于词汇链的中文短信主题语句抽取方法   总被引:1,自引:0,他引:1  
提出一种基于词汇链的中文短信文本主题的抽取方法。该方法首先通过构造多条词汇链来表达短信文本的叙事线索,并从多条词汇链中抽取出富含主题信息的词汇链,将其作为构造短信文本主题语句的关键词序列。实验表明该方法抽取的短信文本主题能够更全面地覆盖短信文本的信息,并能消除多个关键词序列表达同一主题信息的冗余。其效果明显优于采用统计信息进行短信文本主题抽取的方法。  相似文献   

5.
基于词汇树的词袋模型(Bag-of-Words)表示算法是目前图像检索领域中的主流算法.针对传统词汇树方法中空间上下文信息缺失的问题,提出一种基于空间上下文加权词汇树的图像检索方法.该方法在词汇树框架下,首先生成SIFT点的空间上下文信息描述.然后利用SIFT点间的空间上下文相似度对SIFT间的匹配得分进行加权,得到图像间的相似度.最后,通过相似度排序完成图像检索.实验结果表明,该方法能够大幅度提高图像检索的性能,同时,对大规模图像库有较好的适用性.  相似文献   

6.
由于小目标有限的分辨率和表观信息,其检测任务一直是计算机视觉领域的挑战性工作。在解决这一问题时,现有大多数方法为了提高精度而牺牲了速度。在论文中,为了提高小目标检测精度,同时保证检测速度,提出了一种在卷积网络中引入上下文信息的特征融合方法,即Contextual Fused Network(简称CF-Net)。CF-Net引入了上下文信息,并且只在浅层进行特征融合,这样既能提高小目标的检测精度,又能保证检测速度。实验结果表明,在小目标检测上,CF-Net在PASCAL VOC2007上获得的mAP为78.9,比目前主流的单点检测器SSD提高了2%。CF-Net模型测试速度为40 fps,比现有小目标检测器DSSD高26.4 fps。  相似文献   

7.
基于句子级别的抽取方法不足以解决中文事件元素分散问题。针对该问题,提出基于上下文融合的文档级事件抽取方法。首先将文档分割为多个段落,利用双向长短期记忆网络提取段落序列特征;其次采用自注意力机制捕获段落上下文的交互信息;然后与文档序列特征融合以更新语义表示;最后采用序列标注方式抽取事件元素并匹配事件类型。与其他事件抽取方法在相同的中文数据集上进行对比,实验结果表明,该方法能有效抽取文档中分散的事件元素,并提升模型的抽取性能。  相似文献   

8.
《软件》2017,(9):18-22
句子相似度的计算是自然语言处理领域中的重要研究课题,它在信息检索、文本挖掘、机器翻译等领域占有重要的作用。为提高汉泰双语新闻主题句相似度计算的准确率,本文根据汉泰双语新闻主题句的句式特点,提出了一种融合多特征的汉泰双语新闻主题句相似度计算方法。在选取词性、句法成分作为有效特征外,引入句子依存关系特征,并通过对不同的特征加不同的权重来调节各个特征对相似度计算的贡献,从而使计算结果达到最优。与基于词典的方法进行比较,实验结果表明,该方法使得准确率提高了5.9%。  相似文献   

9.
基于主题特征的关键词抽取   总被引:1,自引:1,他引:1  
为了使抽取出的关键词更能反映文档主题,提出了一种新的词的主题特征(topic feature,TF)计算方法,该方法利用主题模型中词和主题的分布情况计算词的主题特征。并将该特征与关键词抽取中的常用特征结合,用装袋决策树方法构造一个关键词抽取模型。实验结果表明提出的主题特征可以提升关键词抽取的效果,同时验证了装袋决策树在关键词抽取中的适用性。  相似文献   

10.
多语种翻译词汇的在线自动抽取   总被引:1,自引:0,他引:1  
越来越多网页以多种语言的形式在互联网上传播,从中抽取多语种翻译词汇具有重要的研究价值.针对网页的特点,提出了一种新的多语种翻译词汇的在线自动抽取方法.该方法通过对双语网页中超链接信息相似度的计算,获取多语种翻译词汇,相似性越高,对应的词条互为翻译对的可能性越大.通过对中英、德英、法英3类双语网页的抽取,结果证明它具有较高的准确率,是一种高效的与语言无关的多语种词汇对抽取方法.  相似文献   

11.
关系抽取是构建知识图谱的一项核心技术.由于中文具有复杂的语法和句式,同时现有的神经网络模型提取特征有限以及语义表征能力较差,从而影响中文实体关系抽取的性能.文章提出了一种融合多特征的BERT预训练模型的实体关系抽取算法.首先对语料进行预处理,提取关键词、实体对信息和实体类型特征并进行融合,以此来强化BERT模型的语义学...  相似文献   

12.
双语词典是跨语言自然语言处理中一项非常重要的资源.目前提取双语词典的方法主要是基于平行语料库和基于可比语料库,但是这两种方法在提取新词或者某些技术术语时都存在双语资源匮乏的问题.相比之下,基于部分双语语料的方法由于利用的是新闻或者百科知识,故可以很好地解决这个问题,然而目前基于部分双语语料的方法主要集中在对文本内容的提...  相似文献   

13.
基于Web数据的特定领域双语词典抽取   总被引:1,自引:1,他引:1  
双语词典是跨语言检索以及机器翻译等自然语言处理应用的基础资源。本文提出了一种从非平行语料中抽取特定领域双语词典的算法。首先给出了算法的基本假设并回顾了相关的研究方法,然后详细给出了利用词间关系矩阵法从特定领域非平行语料中抽取双语词典的过程,最后通过大量实验分析了种子词选择对词典抽取结果的影响,实验结果表明种子词的数量和频率对词典抽取结果有积极作用。  相似文献   

14.
目前行人重识别算法面临的主要问题包括背景过多、行人区域缺失及图片视角差异等。基 于行人区域中显著性特征之间存在着强相关性及行人区域与背景区域特征之间存在着弱相关性两方 面的观察,该研究提出一种基于特征点相关性的行人重识别方法。其中,通过采用一种基于视觉不 变性与弱检测的上下文信息处理模块,即 CIP(Contextual Information Processing)模块实现该方法。 由于具有强相关性的特征可能分布在不同的粒度之间,所以嵌入 CIP 模块的多粒度行人重识别方法 可以融合粒度之间的相关性信息。实验中,通过以第一配准率(Rank-1)和平均准确率为评价指标, 使用单数据集测试、跨数据集测试两种方法,在 4 个大型的行人重识别数据集上进行了充分的测试 实验,并利用两个可视化的方法——弱检测效果与行人区域中显著特征点的相关性效果,对 CIP 模 块的有效性进行验证。实验结果显示,目前主流的多粒度网络通过嵌入 CIP 模块,性能均有明显的 提升。  相似文献   

15.
为了获取同一事件的汉越双语新闻的自动摘要,该文提出了一种多特征融合的汉越双语新闻摘要方法。关于同一事件的新闻文本,其句子间具有一定的关联关系,利用这些关联关系有助于生成摘要。根据该思想,首先计算句子间的新闻要素共现程度及句子间的相似度;然后将这两种特征融入句子无向图,并利用图排序算法对句子进行排序;之后结合句子的位置特征对排序结果进行调序;最后挑选重要句子并去除冗余生成摘要。在汉越双语新闻文档集上进行了摘要实验,结果表明该方法取得了较好的结果,具有有效性。  相似文献   

16.
基于BERT-BiLSTM-CRF模型的中文实体识别   总被引:1,自引:0,他引:1  
命名实体识别是自然语言处理的一项关键技术.基于深度学习的方法已被广泛应用到中文实体识别研究中.大多数深度学习模型的预处理主要注重词和字符的特征抽取,却忽略词上下文的语义信息,使其无法表征一词多义,因而实体识别性能有待进一步提高.为解决该问题,本文提出了一种基于BERT-BiLSTM-CRF模型的研究方法.首先通过BERT模型预处理生成基于上下文信息的词向量,其次将训练出来的词向量输入BiLSTM-CRF模型做进一步训练处理.实验结果表明,该模型在MSRA语料和人民日报语料库上都达到相当不错的结果, F1值分别为94.65%和95.67%.  相似文献   

17.
针对基于机器学习的人物关系抽取需要人工选取特征的问题,提出一种基于卷积神经网络的中文人物关系抽取方法。采用搜狗实验室公开的中文全网新闻语料库来训练Word2vec模型,得到基于分布式表示的词向量表达,并完成了对百度百科数据集的词向量转化工作。设计一种基于经典CNN模型的中文人物关系抽取系统方案,用CNN模型自动提取特征并进行人物关系的分类,实现了5类常见人物关系的提取,准确率达到92.87%,平均召回率达到86.92%。实验结果表明,该方法无需人工构建复杂特征即可得到较好的人物关系抽取效果。  相似文献   

18.
双语句子相似度旨在计算不同语言句子间的语义相似程度,在信息检索、平行语料库构建、机器翻译等领域有重要作用。由于汉语、老挝语平行语料稀少,且老挝语在语义表达、句子结构上与汉语有明显差异,导致汉老双语句子相似度研究的难度较大。该文提出了一种融合文本特征的汉老双语句子相似度计算方法,并构建了句子相似度模型。首先,在句子相似度模型中将汉语、老挝语的词性、数字共现等文本特征与GloVe预训练词向量融合,以此丰富句子特征,提升模型计算准确率。其次,由基于自注意力的双向长短时记忆网络组成多层孪生网络来提取长距离上下文特征和深层次语义信息,其中自注意力机制可以保证语义信息的有效利用。最后,采用迁移学习的方法将通用模型参数初始化,并使用不同的微调参策略增强模型的泛化能力。实验表明,该文提出的方法,其召回率、准确率和F1值分别达到了82.5%、85.78%和84.00%。  相似文献   

19.
双语词典是跨语言信息检索以及机器翻译等自然语言处理应用中的一项重要资源。现有的基于可比语料库的双语词典提取算法不够成熟,抽取效果有待提高,而且大多数研究都集中在特定领域的专业术语抽取。针对此不足,提出了一种基于词向量与可比语料库的双语词典提取算法。首先给出了该算法的基本假设以及相关的研究方法,然后阐述了基于词向量利用词间关系矩阵从可比语料库中提取双语词典的具体步骤,最后将该抽取方法与经典的向量空间模型做对比,通过实验分析了上下文窗口大小、种子词典大小、词频等因素对两种模型抽取效果的影响。实验表明,与基于向量空间模型的方法相比,本算法的抽取效果有着明显的提升,尤其是对于高频词语其准确率提升最为显著。  相似文献   

20.
主题模型能够从海量文本数据中挖掘语义丰富的主题词,在文本分析的相关任务中发挥着重要作用。传统LDA主题模型在使用词袋模型表示文本时,无法建模词语之间的语义和序列关系,并且忽略了停用词与低频词。嵌入式主题模型(ETM)虽然使用Word2Vec模型来表示文本词向量解决上述问题,但在处理不同语境下的多义词时,通常将其表示为同一向量,无法体现词语的上下文语义差异。针对上述问题,设计了一种基于BERT的嵌入式主题模型BERT-ETM进行主题挖掘,在国内外通用数据集和《软件工程》领域文本语料上验证了所提方法的有效性。实验结果表明,该方法能克服传统主题模型存在的不足,主题一致性、多样性明显提升,在建模一词多义问题时表现优异,尤其是结合中文分词的WoBERT-ETM,能够挖掘出高质量、细粒度的主题词,对大规模文本十分有效。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号