首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
罗萍  丁玲  杨雪  向阳 《计算机应用》2022,42(10):2990-2995
当前的事件检测模型严重依赖于人工标注的数据,在标注数据规模有限的情况下,事件检测任务中基于完全监督方法的深度学习模型经常会出现过拟合的问题,而基于弱监督学习的使用自动标注数据代替耗时的人工标注数据的方法又常常依赖于复杂的预定义规则。为了解决上述问题,就中文事件检测任务提出了一种基于BERT的混合文本对抗训练(BMAD)方法。所提方法基于数据增强和对抗学习设定了弱监督学习场景,并采用跨度抽取模型来完成事件检测任务。首先,为改善数据不足的问题,采用回译、Mix-Text等数据增强方法来增强数据并为事件检测任务创建弱监督学习场景;然后,使用一种对抗训练机制进行噪声学习,力求最大限度地生成近似真实样本的生成样本,并最终提高整个模型的鲁棒性。在广泛使用的真实数据集自动文档抽取(ACE)2005上进行实验,结果表明相较于NPN、TLNN、HCBNN等算法,所提方法在F1分数上获取了至少0.84个百分点的提升。  相似文献   

2.
事件检测主要研究从非结构化文本中自动识别事件触发词,实现所属事件类型的正确分类。与英文相比,中文需要经过分词才能利用词汇信息,还存在“分词-触发词”不匹配问题。针对中文语言特性与事件检测任务的特点,本文提出一种基于多词汇特征增强的中文事件检测模型,通过外部词典为字级别模型引入包含多词汇信息的词汇集,以利用多种分词结果的词汇信息。同时采用静态文本词频统计与自动分词工具协同决策词汇集中词汇的权重,获取更加精确的词汇语义。在ACE2005中文数据集上与现有模型进行实验对比分析,结果表明本文方法取得了最好的性能,验证了该方法在中文事件检测上的有效性。  相似文献   

3.
由于中文语法的复杂性,中文语法错误检测(CGED)的难度较大,而训练语料和相关研究的缺乏,使得CGED的效果还远未达到实用的程度。该文提出一种CGED模型,APM-CGED,采用数据增强、预训练语言模型和基于语言学特征多任务学习的方式,弥补训练语料的不足。数据增强能够有效地扩充训练集,而预训练语言模型蕴含丰富的语义信息又有助于语法分析,基于语言学特征多任务学习对语言模型进行优化则可以使语言模型学习到跟语法错误检测相关的语言学特征。该文提出的方法在NLPTEA的CGED数据集进行测试,取得了优于其他对比模型的结果。  相似文献   

4.
事件同指消解是一个具有挑战性的自然语言处理任务,它在事件抽取、问答系统和阅读理解等任务中发挥着重要作用.现存的事件同指消解语料库的一个问题是标注规模较小,无法训练出高效能的模型.为了解决上述问题,该文提出了一个基于跨语言数据增强的事件同指消解神经网络模型ECR_CDA(Event Coreference Resolut...  相似文献   

5.
基于医疗影像的辅助诊断技术正处于快速发展阶段,但是受医学影像数据量的制约,使得基于深度学习的建模方法无法向更复杂的模型进行探索.本文从医学CT影像数据增强方法出发,概述了医疗影像病灶图像的成像特点,针对病灶检测及分割任务对现有方法进行了归类总结,并阐述了当前医学影像检测和分割的难点.分别从病灶检测相关技术、影像数据增强方法、基于生成对抗网络(Generative Adversarial Network,GAN)的病灶检测方法等方面进行了总结.最后,针对医学领域内基于深度学习的数据增强方法:标准GAN、pix2pixGAN、CycleGAN模型进行了对比分析,并展望未来医学影像分析领域的发展趋势.  相似文献   

6.
深度学习在视觉检测中所具备的优势极其依赖大量的数据,但是由于条件限制,在很多检测任务中缺乏足够的数据标本.针对水下电缆数据少且获取困难的问题,提出了一种基于数据增强的水下电缆视觉识别方法.首先,用现有的水下电缆图像建立数据集;然后,构建生成对抗网络的生成器和鉴别器;其次,通过现有数据集进行生成对抗网络训练,输出无限接近...  相似文献   

7.
文章提出一种基于YOLOv5模型结合数据增强的印章与签字检测方法。为解决实际场景中进行印章和签字标注人工成本较高的问题,提出了一种印章签名的数据增强方法,并结合深度学习算法YOLOv5进行建模,实现了小数据样本下的印章与签字检测建模。与传统的检测方法相比,该方法可以有效地提高检测准确率和精确率,并且具有更好的鲁棒性,可以应用于电子政务等业务系统中。  相似文献   

8.
为了追求精度,深度学习模型框架的结构越来越复杂,网络越来越深.参数量的增加意味着训练模型需要更多的数据.然而人工标注数据的成本是高昂的,且受客观原因所限,实际应用时可能难以获得特定领域的数据,数据不足问题非常常见.数据增强通过人为地生成新的数据增加数据量来缓解这一问题.数据增强方法在计算机视觉领域大放异彩,让人们开始关...  相似文献   

9.
针对事件要素之间客观存在的语义关系以及事件与事件类之间的语义关系进行研究,提出了一种基于扩展描述逻辑的事件实例检测方法。该方法利用事件中的时间、动作、环境要素对事件进行语义补充,然后利用扩展描述逻辑中概念的可满足性和概念包含的推理功能对事件实例进行检测,最后通过实验证明该方法可实现文本中的事件实例检测,准确率达到了85.12%。  相似文献   

10.
基于改进Mosaic数据增强和特征融合的Logo检测   总被引:1,自引:0,他引:1       下载免费PDF全文
近年来,Logo检测在知识产权保护和产品品牌管理等领域得到了广泛应用。针对Logo检测中的复杂背景和多尺度问题,提出了一种改进Mosaic数据增强和特征融合的Logo检测算法。将六张原始图片随机翻转、缩放和拼接构成合成图像,与单张图像和由四张原始图片合成的图像一起作为YOLOv4模型的训练输入,并确定三种输入形式的最优比例,同时使用一种新的训练策略,改进的Mosaic数据增强方法丰富了Logo对象的尺度和背景,使模型更好地学习全局和局部特征;在路径整合网络(PANet)的基础上引入跨层连接、重复堆叠、直接连接和加权特征融合等操作,改进的PANet扩大了模型感受野,增强了模型的多尺度特征表达能力。实验结果表明,提出的MP-YOLOv4算法在减小21.7%模型大小的同时, IoU(Intersection of Union)等于0.5时的平均精度上达到了67.4%,较YOLOv4提高了2.4%,同时在多尺度目标上的检测性能得到了改善。  相似文献   

11.
In low-resource natural language processing (NLP) tasks, the existing data is not enough to train an ideal deep learning model. Text data augmentation is an effective method to improve the training effect of such tasks. This paper proposes a group of data augmentation methods based on instance substitution for the task of Chinese named entity recognition. A named entity in the training sample can be replaced by another entity of the same kind without changing the label. The specific algorithms include: 1) crossover substitution between existing entities; 2) synonymous replacement of entity components; 3) automatic generation of Chinese names. These methods are applied to PeopleDailyNER and CLUENER2020 datasets respectively, and the augmentation data is used to train the BERT+CRF model. The experimental results show that the F1 value of the model can be improved by about 10% and 7% respectively on the two datasets with only adding the same amount of augmentation data as the original data under the condition of small samples, and it also has a significant improvement when the training samples increase.  相似文献   

12.
文本意图识别任务中常面临训练数据不足的问题,且由于文本数据离散性导致在标签不变的条件下进行数据增强并提高原模型性能具有一定困难,为解决小样本意图识别任务中的上述问题,提出一种分步式数据增强与阶段性训练策略相结合的方法.该方法从全局和局部两个角度将原始数据在全体语句和同类别中的样本对上进行递进式增强,并在模型训练期间根据递进层次的不同划分阶段进行学习,最后在多个意图识别数据集上进行实验以评估其有效性.实验结果表明,该方法可以有效提高小样本环境中意图识别模型的准确率,同时模型的稳定性也得到了提升.  相似文献   

13.
事件检测是事件处理系统最重要的研究问题之一。异常、变化和突发是三类最典型的数据流事件。本文关注如何在数据流中同时检测多种事件,首先研究了多种事件之间的联系,然后给出了基于网格聚类的统一处理方法,最后为了评估事件的严重程度,给出了打分函数。实验验证了所提方法的正确性与有效性。  相似文献   

14.
深度学习在图像、文本、语音等媒体数据的分析任务上取得了优异的性能. 数据增强可以非常有效地提升训练数据的规模以及多样性, 从而提高模型的泛化性. 但是, 对于给定数据集, 设计优异的数据增强策略大量依赖专家经验和领域知识, 而且需要反复尝试, 费时费力. 近年来, 自动化数据增强通过机器自动设计数据增强策略, 已引起了学界和业界的广泛关注. 为了解决现有自动化数据增强算法尚无法在预测准确率和搜索效率之间取得良好平衡的问题, 提出一种基于自引导进化策略的自动化数据增强算法SGES AA. 首先, 设计一种有效的数据增强策略连续化向量表示方法, 并将自动化数据增强问题转换为连续化策略向量的搜索问题. 其次, 提出一种基于自引导进化策略的策略向量搜索方法, 通过引入历史估计梯度信息指导探索点的采样与更新, 在能够有效避免陷入局部最优解的同时, 可提升搜索过程的收敛速度. 在图像、文本以及语音数据集上的大量实验结果表明, 所提算法在不显著增加搜索耗时的情况下, 预测准确率优于或者匹配目前最优的自动化数据增强方法.  相似文献   

15.
Few-shot intent detection is a practical challenge task, because new intents are frequently emerging and collecting large-scale data for them could be costly. Meta-learning, a promising technique for leveraging data from previous tasks to enable efficient learning of new tasks, has been a popular way to tackle this problem. However, the existing meta-learning models have been evidenced to be overfitting when the meta-training tasks are insufficient. To overcome this challenge, we present a novel self-supervised task augmentation with meta-learning framework, namely STAM. Firstly, we introduce the task augmentation, which explores two different strategies and combines them to extend meta-training tasks. Secondly, we devise two auxiliary losses for integrating self-supervised learning into meta-learning to learn more generalizable and transferable features. Experimental results show that STAM can achieve consistent and considerable performance improvement to existing state-of-the-art methods on four datasets.  相似文献   

16.
This paper proposes a machine learning based method which can detect certain events automatically and precisely in biomedical imaging. We detect one important and not well-defined event, which is called flash, in fluorescence images of Escherichia coli. Given a time series of images, first we propose a scheme to transform the event detection on region of interest (ROI) in images to a classification problem. Then with supervised human labeling data, we develop a feature selection technique to utilize support vector machine (SVM) to solve this classification problem. To reduce the time in training SVM model, a parallel version of SVM training is implemented. On ten stacks of fluorescence images labeled by experts, each of which owns one hundred 512 ·512 images with in total 4906 ROIs and 72056 labeled events, event detection with proposed method takes 19 seconds, while human labeling roughly costs 60 hours. With human labeling as the standard, the accuracy of our method achieves an F-value of about 0.81. This method is much faster than human detection and expects to be more precise with bigger data. It also can be expanded to a series of event detection with similar properties and improve efficiency of detection greatly.  相似文献   

17.
视频上的事件探测对于视频检索与语义理解是一个很重要的工作.视频中的轨迹不仅记录了物体的移动信息,也反映了物体移动的动机,并与事件的发生密切相关.主要探讨了如何从轨迹抽取事件.然而,基于内容的视频事件分析中,从视频中抽取的低层特征与高层的语义特征存在一定的鸿沟.因此,利用领域知识标记的兴趣区域,提出一种新的语义轨迹表示方法,从而将视频中得到的原始轨迹转化为语义轨迹.同时,使用物体与兴趣区域关系的正则表达式描述视频中的语义事件.基于归纳学习的事件规则学习算法显示了正则表达式比传统的一阶谓词上的合式公式更易于学习.利用学习得到的事件规则可以很好地用于视频中语义事件的探测.最后,实验表明了事件探测的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号