首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
自然语言处理中的评测任务引导和推动着技术、模型和方法上的研究。近年来,新的评测数据集和评测任务不断被提出,与此同时,现有评测暴露的一系列问题也限制了自然语言处理技术的进步。该文从自然语言处理评测的概念、构成、发展和意义出发,分类综述了主流自然语言处理评测的任务和特点,进而总结归纳了自然语言处理评测中的问题及其成因。最后,该文参照人类语言能力评测规范,提出类人机器语言能力评测的概念,并从信度、难度、效度三个方面提出了一系列类人机器语言能力评测的基本原则和实施设想,并对评测技术的未来发展进行了展望。  相似文献   

2.
对文本分类评测方法稳定性的研究   总被引:1,自引:0,他引:1  
文本分类算法一般采用宏平均精度、宏平均召回率以及宏平均F1值作为评价指标,然而同一个分类器在不同数据集上所得的评测数值往往存在很大差异,使得评测数值只在特定的数据集上有价值,而在其他数据集上没有意义.为了解决这个问题,本文提出3个因素来刻画数据集对分类结果的影响,并利用这3个因素构造一种评测指标newmacro-F1.这一评测指标将数据集的因素从评测过程中独立出来,使得newmacro-F1表示的仅仅是分类算法本身.实验结果表明使用该评测指标同一分类器在不同的数据集上波动较小.通过分类器在1个数据集上的表现,可以近似计算得到该分类器在另一个数据集卜的分类质量.  相似文献   

3.
近年来,随着深度学习技术在计算机视觉和自然语言处理领域取得不断成功,越来越多的学者开始致力于推动计算机视觉和自然语言处理的交叉领域——多模态图像描述的研究进展。现对多模态图像描述任务进行了文献综述,从图像描述方法的发展与分类、常用数据集和评价指标三个方面对该领域进行介绍,对不同方法的优缺点进行了总结,并将不同方法的代表模型在相同数据集上的表现进行比对。最后,对图像描述任务当前面临的挑战和未来发展方向进行展望。  相似文献   

4.
抽象语义表示是近年来国内外句子语义解析领域的研究热点,国际上已举办了CoNLL2019和CoNLL2020两届跨语言的评测。中文抽象语义表示评测是CoNLL2020的五大任务之一,取得了接近英语的解析效果,但是评测数据和评测指标仍有较大改进空间。为了推动中文抽象语义解析研究,该文在第二十一届中国计算语言学大会技术评测任务研讨会上组织了第二届评测,以新设计的Align-smatch指标为排名标准,采用改进的语义标注方案和标注语料库来进行评测。在基础测试集上,封闭模式的最高F1值为80.00%;盲测集上的表现则相比基础测试集下降了7个百分点左右。本次评测的最佳结果在MRP指标下比上届提高了2.66个百分点。统计发现,整体性能提升主要来源于概念之间的语义关系预测准确率的提高,而语义关系的对齐还有待提升。  相似文献   

5.
在自然语言处理领域各项任务中,模型广泛存在性别偏见。然而,当前尚无中文性别偏见评估和消偏的相关数据集,因此无法对中文自然语言处理模型中的性别偏见进行评估。首先,该文根据16对性别称谓词,从一个平面媒体语料库中筛选出性别无偏的句子,构建了一个含有20 000条语句的中文句子级性别无偏数据集SlguSet(Sentence-Level Gender Unbiased Dataset)。随后,该文提出了一个可衡量预训练语言模型性别偏见程度的指标,并对5种流行的预训练语言模型中的性别偏见进行评估。结果表明,中文预训练语言模型中存在不同程度的性别偏见,该文所构建数据集能够很好地对中文预训练语言模型中的性别偏见进行评估。  相似文献   

6.
计算机视觉一直是人工智能研究的热点方向,经过近 60 年的发展,已经在算法、技术和应用等 方面取得了巨大的进步。近十年来,以大数据、大算力为基础的深度学习进一步推动计算机视觉走向大模型时 代,但其算法适应能力仍然和人类存在较大差距。本文从视觉任务评估评测(评测数据集、评测指标、评估方 式)出发,对计算机视觉的发展进行了总结,对现存的依赖大数据学习的计算机视觉发展问题进行了梳理和分 析,从人机对抗智能评测提出了计算机视觉下一步发展方向:视觉图灵。最后对视觉图灵发展方向进行了思考 和讨论,探讨了未来研究可能的方向。  相似文献   

7.
为了避免基于传统机器学习的中文文本蕴含识别方法需要人工筛选大量特征以及使用多种自然语言处理工具造成的错误累计问题,该文提出了基于CNN与双向LSTM的中文文本蕴含识别方法。该方法使用CNN与双向LSTM分别对句子进行编码,自动提取相关特征,然后使用全连接层进行分类得到初步的识别结果,最后使用语义规则对网络识别结果进行修正,得到最终的蕴含识别结果。在2014年RITE-VAL评测任务的数据集上MacroF1结果为61.74%,超过评测第一名的结果61.51%。实验结果表明,该方法对于中文文本蕴含识别是有效的。  相似文献   

8.
工业界、学术界,以及最终用户都急切需要一个大数据的评测基准, 用以评估现有的大数据系统,改进现有技术以及开发新的技术。回顾了近几年来大数据评测基准研发方面的主要工作。 对它们的特点和缺点进行了比较分析。在此基础上, 对研发新的大数据评测基准提出了一系列考虑因素:1)为了对整个大数据平台的不同子工具进行评测, 以及把大数据平台作为一个整体进行评测, 需要研发面向组件的评测基准和面向大数据平台整体的评测基准, 后者是前者的有机组合;2)工作负载除了SQL查询之外, 必须包含大数据分析任务所需要的各种复杂分析功能, 涵盖各类应用需求;3)在评测指标方面,除了性能指标(响应时间和吞吐量)之外, 还需要考虑其他指标的评测, 包括系统的可扩展性、容错性、节能性和安全性等。  相似文献   

9.
蕴含语义、句法和上下文信息的语境词向量作为一种动态的预训练词向量,在自然语言处理的下游任务中有着广泛应用。然而,在机器译文质量估计中,没有相关研究工作涉及语境词向量。该文提出利用堆叠双向长短时记忆网络将BERT语境词向量引入神经译文质量估计中,并通过网络并联的方式与传统的译文质量向量相融合。在CWMT18 译文质量估计评测任务数据集上的实验结果表明,融合中上层的BERT语境词向量均显著提高了译文质量估计与人工评价的相关性,并且当对BERT语境词向量的最后4层表示平均池化后引入译文质量估计中对系统性能的提高幅度最大。实验分析进一步揭示了融合语境词向量的方法能利用译文的流利度特征来提高翻译质量估计的效果。  相似文献   

10.
近年来,将语法错误纠正当作机器翻译任务在英语语法纠错领域取得重大进展,对于数据驱动的自然语言处理方法,大规模、高质量的标注语料成为翻译等相关任务最重要的资源.在调查中,主要关注英语语法纠错领域的数据集和数据增广方法.全面地概括了英语语法纠错领域使用的数据集、数据合成、评价方法及应用现状,并对其进行归纳分析;对今后如何提...  相似文献   

11.
隐喻是人类语言中经常出现的一种特殊现象,隐喻识别对于自然语言处理各项任务来说具有十分基础和重要的意义。针对中文领域的隐喻识别任务,该文提出了一种基于句法感知图卷积神经网络和ELECTRA的隐喻识别模型(Syntax-aware GCN with ELECTRA, SaGE)。该模型从语言学出发,使用ELECTRA和Transformer编码器抽取句子的语义特征,将句子按照依存关系组织成一张图并使用图卷积神经网络抽取其句法特征,在此基础上对两类特征进行融合以进行隐喻识别。该模型在CCL 2018中文隐喻识别评测数据集上以85.22%的宏平均F1值超越了此前的最佳成绩,验证了融合语义信息和句法信息对于隐喻识别任务具有重要作用。  相似文献   

12.
词向量使用低维稠密向量表示词,通过向量运算能够反映词间关系,被广泛应用于自然语言处理任务。对基于矩阵分解的词向量方法进行了研究,发现降维前相似度矩阵质量与词向量质量存在线性相关性,提出了一种基于中心化相似度矩阵的方法。该方法使得相似(不相似或弱相似)词间的相似程度相对增强(减弱)。在WS-353和RW数据集的词语相似性实验中验证了所提出方法的有效性,两个数据集下词向量质量最高提升0.2896和0.1801。中心化能够提升降维前相似度矩阵质量,进而提升词向量质量。  相似文献   

13.
自动生成领域,传统的ROUGE评测方法已多次被研究者发现其评测结果与人工评测结果差距过大,但该差距尚未数值化,无法丈量。基于此现状,本文采用多个不同类型、长度的公开中文摘要数据集,通过定义语义损失率计算方法来衡量ROUGE在评价时所产生的语义损失程度,同时综合考虑摘要长度以及数据集内在因素对生成摘要评价的影响,最终可视化ROUGE评测与人工评测存在误差的具体数值。实验结果表明,ROUGE评测分数与人工评测分数呈弱相关性,ROUGE方法对不同长度的数据集都存在一定程度的语义损失,同时摘要长度和数据集的原始标注误差也会对最终的评测分数产生重要影响。本文定义的语义损失率计算方法可以为更好地选择数据集和评测方法提供一定的参考依据,为改进评测方法提供一定的思路方向,同时也对最终客观测评模型的有效性提供一定的指导帮助。  相似文献   

14.
属性抽取是一种自动识别和提取属性表述文字的自然语言处理任务.首先重温了属性抽取的基本任务、权威数据资源和通用评测规范,并在此基础上全面回顾了现有前沿技术,包括基于统计策略和特征工程的传统抽取技术以及利用深度学习的神经抽取技术.特别地,以属性表述语言的本质为出发点,结合现有技术暴露出的不足,对该领域的技术难点和推演方向给出了详细解释.  相似文献   

15.
远程监督可以为关系抽取任务自动构建数据集,缓解了人工构建数据集的压力和成本,为自动关系抽取的实现奠定基础,然而使用远程监督方法构建的数据集存在错误标注以及长尾问题,严重影响关系抽取性能.目前,远程监督关系抽取任务的主要研究方向为关系模型的降噪手段以及对长尾关系的处理方法.近年来,随着深度学习技术的发展,这两个领域的研究工作也迎来了新一轮的机遇与挑战.本文对近几年远程监督关系抽取的研究进展进行综述,针对基于深度学习的远程监督关系抽取任务定义常用工作流,其中包括样本降噪、外部信息融合、编码器和分类器.本文根据不同的模块将已有的研究成果进行分类和梳理,分析比较主要方法,整理其中的关键问题,介绍已有的解决方案和相关数据集,总结远程监督关系抽取任务所用评测指标与评估方式,展望未来研究趋势.  相似文献   

16.
搜索引擎检索系统质量评估   总被引:6,自引:0,他引:6  
搜索引擎检索系统的质量评估对传统信息检索系统评估带来了新的研究问题.利用Tiangwang搜索引擎查询日志,按类别构造评估查询集,用人工判别相关性的方法对3个搜索引擎进行了检索质量评估.实验用InfoMall系统提供的历史网页服务消除不同搜索引擎搜集系统收集网页集合的差异,得到如下结论:①评测员之间的差异很大,但评估实验结果保持稳定;②使用连续型的相关度评分以及对应的评估指标比二元相关度评分及指标具有更好的区分能力;③使用50左右规模的查询集合和DCG这样的连续型评估指标可以有效进行评估实验.  相似文献   

17.
基于实体名的文本自动综述研究   总被引:1,自引:0,他引:1  
自动文摘是自然语言处理的一个重要分支,在信息检索领域中有着重要的用途.文本自动综述是自动文摘在多文档上的推广。本文提出了基于实体名扩展的自动综述方法,这种方法认为综述中的实体名个数反映其中所蕴含信,S量的多少。我们用该方法实现针对事件的自动综述生成,并参加了2003年文本理解会议(Document Understanding Conference,DUC)进行统一评测,DUC反馈的评测结果显示这种方法是有效的。此外,本文还对文本理解会议的任务、评测方法和测试结果做了简单介绍。  相似文献   

18.
在发音质量自动评测任务中,韵律发音质量评测是非常重要的高级环节,对语音的自然度和可理解程度方面有着直接和重要的影响。本文在韵律相关的多种声学特征的基础上,进一步融合了韵律相关的多种语言学统计特征,并使用支持向量机为分类模型,实现对韵律发音质量的有效评测,人机相关性达到0.779,相对提升了3.45%。同时,采用基于浮动思想的SFFS算法进行特征筛选,去除了目标无关的特征,提高了支持向量机模型的精度和泛化能力,进一步提升了评测性能。  相似文献   

19.
任务中的生成式摘要模型对原文理解不充分且容易生成重复文本等问题,提出将词向量模型ALBERT与统一预训练模型UniLM相结合的算法,构造出一种ALBERT-UniLM摘要生成模型。该模型采用预训练动态词向量ALBERT替代传统的BERT基准模型进行特征提取获得词向量。利用融合指针网络的UniLM语言模型对下游生成任务微调,结合覆盖机制来降低重复词的生成并获取摘要文本。实验以ROUGE评测值作为评价指标,在2018年CCF国际自然语言处理与中文计算会议(NLPC-C2018)单文档中文新闻摘要评价数据集上进行验证。与BERT基准模型相比,ALBERT-UniLM模型的Rouge-1、Rouge-2和Rouge-L指标分别提升了1.57%、1.37%和1.60%。实验结果表明,提出的ALBERT-UniLM模型在文本摘要任务上效果明显优于其他基准模型,能够有效提高文本摘要的生成质量。  相似文献   

20.
面对日益复杂的处理器设计和有限的设计周期,如何有效地快速进行性能评估,是每一个处理器设计团队需要解决的问题。完整的性能测试集需要运行较长的时间,特别是在硅前验证阶段,高昂的时间成本导致设计团队无法使用完整的性能测试集进行性能评估分析。文中介绍了一种通用处理器快速性能评测方法(Fast-Eval),Fast-Eval性能评测方法基于SimPoint技术,使用FastParallel-BBV方法、最优模拟点的选取以及模拟点的热迁移等方法,显著缩短了BBV生成时间和性能测试时间。实验结果表明,相比完整运行SPEC CPU 2006 REF数据规模测试程序获得的性能数据,所提方法在ARM64处理器上BBV生成时间缩短为原来的16.88%,性能评估时间缩短为原来的1.26%,性能评估结果的平均相对误差为0.53%;在FPGA开发板上测试集的平均相对误差可以达到0.40%,运行时间仅为完整运行时间的0.93%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号