首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
命名实体识别的目的是识别文本中的实体指称的边界和类别。在进行命名实体识别模型训练的过程中,通常需要大量的标注样本。本文通过实现有效的选择算法,从大量样本中选择适合模型更新的样本,减少对样本的标注工作。通过5组对比实验,验证使用有效的选择算法能够获得更好的样本集,实现具有针对性的标注样本。通过设计在微博网络数据集上的实验,验证本文提出的基于流的主动学习算法可以针对大量互联网文本数据选择出更合适的样本集,能够有效减少人工标注的成本。本文通过2个模型分别实现实体的边界提取和类别区分。序列标注模型提取出实体在序列中的位置,实体分类模型实现对标注结果的分类,并利用主动学习的方法实现在无标注数据集上的训练。使用本文的训练方法在2个数据集上进行实验。在Weibo数据集上的实验展示算法能从无标签数据集中学习到文本特征。在MSRA数据集上的实验结果显示,在预训练数据集的比例达到40%以上时,模型在测试数据集上的F1值稳定在90%左右,与使用全部数据集的结果接近,说明模型在无标签数据集上具有一定的特征提取能力。  相似文献   

2.
目的 在线公式识别是一种将在线输入手写轨迹点序列转换为公式文本的任务,其广泛应用在手机、平板等便携式设备上。众所周知,训练数据对于神经网络十分重要,但获取有标注的在线公式数据所需要的成本十分昂贵,在训练数据不足的情况下,深度神经网络在该任务上的泛化性和鲁棒性会受到影响。为此,提出了一个基于编码—解码模型的在线数据生成模型。方法 该模型从给定的公式文本生成对应的在线轨迹点序列,从而灵活地扩充训练数据规模。生成模型在编码器端设计了结合树形表示的文本特征提取模块,并且引入了基于位置的注意力算法,使模型实现了输入文本序列与输出轨迹序列间的对齐。同时,解码器端融入了不同手写人风格特征,使模型可以生成多种手写人风格的样本。结果 实验中,首先,将本文生成方法在不同类型输入文本和不同手写人风格上的结果可视化,并展示了模型在多数情况下的有效性。其次,生成模型合成的额外数据可作为训练集的增广,该数据被用于训练Transformer-TAP(track,attend,and parse)、TAP和DenseTAP-TD(DenseNet TAP with tree decoder)模型,并分析了3种模型在使用增广数据前后的性能变化。结果表明,引入增广数据分进行训练后,3个模型的绝对识别率分别提升了0.98%、1.55%和1.06%;相对识别率分别提升了9.9%、12.37%和9.81%。结论 本文提出的在线生成模型可以更加灵活地实现对原有数据集的增广,并有效提升了在线识别模型的泛化性能。  相似文献   

3.
近年来,栈式自编码网络(stacked auto-encoder,SAE)在大规模数据集上表现出优异的图像分类性能。相对于其他图像分类方法中手工设计的低级特征,SAE的成功归因于深度网络能够学习到丰富的中级图像特征。然而,估计上百万个网络参数需要非常庞大的带标签的图像样本数据集。这样的性质阻止了SAE在小规模训练数据上的许多应用。在这篇文章中,提出的算法展示如何将SAE在大规模数据集上学习到的图像表示有效地迁移到只有有限训练数据的视觉识别任务中。实验部分设计了一个方法来复用在MNIST数据集上训练得到的隐藏层,以此计算在MNIST-variations数据集上的中级图像表示。实验结果展示了尽管两个数据集之间存在差异,但是被迁移的图像特征能够使得模型的分类性能得到极大的提升。  相似文献   

4.
为了解决基于传感器数据的运动识别问题,利用深度卷积神经网络(CNN)在公开的OPPORTUNITY传感器数据集上进行运动识别,提出了一种改进的渐进式神经网络架构搜索(PNAS)算法。首先,神经网络模型设计过程中不再依赖于合适拓扑结构的手动选择,而是通过PNAS算法来设计最优拓扑结构以最大化F1分数;其次,使用基于序列模型的优化(SMBO)策略,在该策略中将按照复杂度从低到高的顺序搜索结构空间,同时学习一个代理函数以引导对结构空间的搜索;最后,将搜索过程中表现最好的20个模型在OPPORTUNIT数据集上进行完全训练,并从中选出表现最好的模型作为搜索到的最优架构。通过这种方式搜索到的最优架构在OPPORTUNITY数据集上的F1分数达到了93.08%,与进化算法搜索到的最优架构及DeepConvLSTM相比分别提升了1.34%和1.73%,证明该方法能够改进以前手工设计的模型结构,且是可行有效的。  相似文献   

5.
目的 人脸属性识别是计算机视觉和情感感知等领域一个重要的研究课题。随着深度学习的不断发展,人脸属性识别取得了巨大的进步。目前基于深度学习的人脸属性识别方法大多依赖于包含完整属性标签信息的大规模数据集。然而,对于小样本数据集的属性标签缺失问题,人脸属性识别方法的准确率依然较低。针对上述问题,本文提出了一种结合自监督学习和生成对抗网络的方法来提高在小样本数据集上的人脸属性识别准确率。方法 使用基于旋转的自监督学习技术进行预训练得到初始的属性识别网络;使用基于注意力机制的生成对抗网络得到人脸属性合成模型,对人脸图像进行属性编辑从而扩充训练数据集;使用扩充后的训练数据集对属性识别网络进行训练得到最终模型。结果 本文在小样本数据集UMD-AED(University of Maryland attribute evaluation dataset)上进行了实验并与传统的有监督学习方法进行了比较。传统的有监督学习方法达到了63.24%的平均准确率,而所提方法达到了69.01%的平均准确率,提高了5.77%。同时,本文在CelebA(CelebFaces attributes dataset)、LFWA(labeled faces in the wild attributes dataset)和UMD-AED数据集上进行了使用自监督学习和未使用自监督学习的对比实验,验证了自监督学习在小样本数据集上的有效性。结论 本文所提出的结合自监督学习和生成对抗网络的人脸属性识别方法有效提高了小样本数据集上属性识别的准确率。  相似文献   

6.
本文提出了一个基于流形学习的动作识别框架,用来识别深度图像序列中的人体行为。本文从Kinect设备获得的深度信息中评估出人体的关节点信息,并用相对关节点位置差作为人体特征表达。在训练阶段,本文利用Lapacian eigenmaps(LE)流形学习对高维空间下的训练集进行降维,得到低维隐空间下的运动模型。在识别阶段,本文用最近邻差值方法将测试序列映射到低维流形空间中去,然后进行匹配计算。在匹配过程中,通过使用改进的Hausdorff距离对低维空间下测试序列和训练运动集的吻合度和相似度进行度量。本文用Kinect设备捕获的数据进行了实验,取得了良好的效果;同时本文也在MSR Action3D数据库上进行了测试,结果表明在训练样本较多情况下,本文识别效果优于以往方法。实验结果表明本文所提的方法适用于基于深度图像序列的人体动作识别。  相似文献   

7.
目的 在高分辨率遥感图像场景识别问题中,经典的监督机器学习算法大多需要充足的标记样本训练模型,而获取遥感图像的标注费时费力。为解决遥感图像场景识别中标记样本缺乏且不同数据集无法共享标记样本问题,提出一种结合对抗学习与变分自动编码机的迁移学习网络。方法 利用变分自动编码机(variational auto-encoders,VAE)在源域数据集上进行训练,分别获得编码器和分类器网络参数,并用源域编码器网络参数初始化目标域编码器。采用对抗学习的思想,引入判别网络,交替训练并更新目标域编码器与判别网络参数,使目标域与源域编码器提取的特征尽量相似,从而实现遥感图像源域到目标域的特征迁移。结果 利用两个遥感场景识别数据集进行实验,验证特征迁移算法的有效性,同时尝试利用SUN397自然场景数据集与遥感场景间的迁移识别,采用相关性对齐以及均衡分布适应两种迁移学习方法作为对比。两组遥感场景数据集间的实验中,相比于仅利用源域样本训练的网络,经过迁移学习后的网络场景识别精度提升约10%,利用少量目标域标记样本后提升更为明显;与对照实验结果相比,利用少量目标域标记样本时提出方法的识别精度提升均在3%之上,仅利用源域标记样本时提出方法场景识别精度提升了10%~40%;利用自然场景数据集时,方法仍能在一定程度上提升场景识别精度。结论 本文提出的对抗迁移学习网络可以在目标域样本缺乏的条件下,充分利用其他数据集中的样本信息,实现不同场景图像数据集间的特征迁移及场景识别,有效提升遥感图像的场景识别精度。  相似文献   

8.
准确的命名实体识别是结构化电子病历的基础,对于电子病历规范化编写有着重要的作用,而现今的分词工具对于专业的医疗术语无法做到完全正确的区分,使得结构化电子病历难以实现.针对医疗实体识别中出现的问题,本文提出了一种在命名实体识别领域中改进的BiLSTM-CRF深度学习模型.模型将文字和标签结合作为输入,在多头注意力机制中使模型关注更多的有用信息, BiLSTM对输入进行特征提取,得到每个文字在所有标签上的概率, CRF在训练过程中学习到数据集中的约束,进行解码时可以提高结果的准确率.实验使用人工标注的1 000份电子病历作为数据集,使用BIO标注方式.从测试集的结果来看,相对于传统的BiLSTM-CRF模型,该模型在实体类别上的F1值提升了3%–11%,验证了该模型在医疗命名实体识别中的有效性.  相似文献   

9.
为了降低人脸表情识别对待识别个体的依赖程度,控制识别字典规模,增加识别准确度,提出了一种基于协作低秩和分层稀疏的表情识别字典构建方法.通过协作低秩和分层稀疏表示(C-HiSLR)有效分离与待识别个体相关部分,保留表情变化部分,并结合标签一致区分字典学习(LC-KSVD)算法,进行相应待训练表情序列的重构识别和对应类别字典的区分程度的优化学习.该方法在CK+数据集上进行验证,识别效果较一般基于稀疏表示模型算法有明显的提升.  相似文献   

10.
针对多物种鸟声识别中多物种鸟声样本不足的问题,尝试采用单物种鸟声样本训练多物种鸟声识别模型,并提出一种基于特征迁移的多物种鸟声识别方法。该方法引入特征迁移学习算法,利用最大均值差异(Maximum mean discrepancy,MMD)度量鸟声样本特征分布差异,将不同分布的单物种鸟声和多物种鸟声的音频特征映射为同分布的潜在音频特征,再基于同分布的音频特征构造识别模型。使得单物种鸟声样本训练的识别模型也能够适用于多物种鸟声识别 。在自然形成的多物种鸟声数据集上,算法在4项多标记评价指标上都取得了较好的识别效果;在人工构造的多物种鸟声数据集上对比试验表明,基于特征迁移的识别算法在单个物种上的正确识别率相较于对比算法最高提升了20%。  相似文献   

11.

In order to solve the problem of low face recognition rate in controlled scene, an expression recognition algorithm based on residual rectification intensive convolutional neural network is proposed. This method takes convolutional neural network as the prototype. In the process of training model, the idea of residual network is introduced to correct the difference between the effect of test set and the effect of training set. The linear rectification operation of the residual block by the excitation function embedded in the convolution layer helps to express complex features. At the same time, the data intensive method is used to suppress the fast fitting of the deep neural network model during the training process, to improve its generalization performance on a given recognition task, and then to improve the robustness of the model learning effect. In the experiment, the method is applied to simulate the online teaching environment, and get effective facial expression recognition result in controlled scene. According to the experimental data, this method can effectively classify the facial image input under controlled conditions, and the highest accuracy is up to 91.7%. This research is helpful to the development of facial expression recognition and human-computer interaction.

  相似文献   

12.
针对已有动作识别算法训练速度慢且识别精度不高等问题,提出了基于稀疏编码局部时空描述子的动作识别方法。该方法首先对深度图像进行法线提取,同时应用基于运动能量的自适应时空金字塔对动作帧分块;然后局部聚集法线,得到显著性局部时空描述子;对局部时空描述子进行稀疏编码得到一组字典向量来重构样本数据;最后利用简化粒子群(sPSO)优化SVM分类器找到最适合样本数据的分类模型。实验在MSRAction3D和MSRGesture3D公开数据集上达到了93.80%和95.83%的识别率,且训练速度较传统方法有明显提升,证明了该方法的有效性和鲁棒性。  相似文献   

13.
A new approach for face recognition, based on kernel principal component analysis (KPCA) and support vector machines (SVMs), is presented to improve the recognition performance of the method based on principal component analysis (PCA). This method can simultaneously be applied to solve both the over-fitting problem and the small sample problem. The KPCA method is performed on every facial image of the training set to get the core facial features of the training samples. To ensure that the loss of the image information will be as less as possible, the facial data of high-dimensional feature space is projected into low-dimensional space, and then the SVM face recognition model is established to identify the low-dimensional space facial data. Our experimental results demonstrate that the approach proposed in this paper is efficient, and the recognition accuracy of the proposed method reaches 95.4 %.  相似文献   

14.
当每个人只有一个训练样本时,最大散度差鉴别分析在人脸识别中的识别性能会降低,为了解决这一问题,提出了基于模糊决策和最大散度差鉴别分析的单样本人脸识别算法。通过对每个训练样本进行适当的分块,从而获得较多的训练样本个数,在这些新的训练样本集上应用类内中间值最大散度差鉴别分析算法得到最优投影矩阵,并基于这个最优投影矩阵可以计算训练样本和待测试样本的特征。对模糊决策方法进行分类。在著名的ORL和FERET人脸数据库上的大量实验结果表明,该算法可以提高识别率。  相似文献   

15.
在数据稀疏、数据非均匀分布和数据流形具有较大曲率的情况下,传统的局部切空间方法不能够有效地揭示流形结构。提出了一种泛化的ILTSA(GILTSA)流形学习方法,该方法以改进的局部切空间排列算法(ILTSA)为基础,在解决流形结构问题的同时,不仅能够获得用于人脸识别更好的低维特征,而且能有效地处理日益增加的数据集的问题。该方法首先基于样品间距离选择近邻集,实现训练集的低维流形,为每个新样本寻找最近的样本训练集。然后结合ILTSA算法,根据其最近样本投影距离计算低维流形。在ORL的人脸图像数据库的实验、Swiss roll和手书的“2”等实验结果表明,与局部线性嵌入和局部切空间排列算法等相比,GILTSA方法增加了整体精度。  相似文献   

16.
人体动作识别是计算机视觉研究中备受关注的课题。现有的动作识别方法大多属于监督学习,需要大量的有标记数据来训练识别模型。然而,在现实应用中有标记的数据成本较高,而无标记数据很容易获取。提出一种基于混合式协同训练的新型人体动作识别算法——Co-KNN-SVM,该算法利用动作识别领域不同类型的方法来构建基分类器,并进行迭代的相互训练以提高泛化性能,可以降低标注成本,并实现不同识别方法的优势互补。此外,还改进了协同训练中对伪标记数据的选择方法和迭代训练策略,有效控制了伪标记数据的噪声影响,提高了协同训练的识别效果。实验结果表明,所提算法可以有效地识别视频中的人体动作。  相似文献   

17.
唐继勇  宋华  孙浩  邓亚平 《计算机应用》2010,30(5):1202-1205
提出一种将粗糙集理论与核匹配追踪算法结合起来的入侵检测方法,利用粗糙集理论在处理大数据量、消除冗余信息等方面的优势,减少机器训练数据,克服支持向量机(SVM)等算法因为数据量大而处理速度慢的缺点。同时,借助核匹配追踪良好的分类识别性能,并对每个样本作出不同的重要性定义,对粗糙集约筒后的最小属性子集进行分类,实现入侵检测的快速、高分类精度和高检测率。实验结果表明,该方法优于单纯采用粗糙集或人工免疫的方法。  相似文献   

18.
CUDA是应用较广的GPU通用计算模型,BP算法是目前应用最广泛的神经网络模型之一。提出了用CUDA模型并行化BP算法的方法。用该方法训练BP神经网络,训练开始前将数据传到GPU,训练开始后计算隐含层和输出层的输入输出和误差,更新权重和偏倚的过程都在GPU上实现。将该方法用于手写数字图片训练练实验,与在四核CPU上的训练相比,加速比为6.12~8.17。分别用在CPU和GPU上训练得到的结果识别相同的测试集图片,GPU上的训练结果对图片的识别率比CPU上的高0.05%~0.22%。  相似文献   

19.
改进残差网络在玉米叶片病害图像的分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统的玉米叶片病害图像识别方法正确率不高、速度慢等问题,提出一种基于改进深度残差网络模型的玉米叶片图像识别算法。提出的改进策略有:将传统的ResNet-50模型第一层卷积层中7×7卷积核替换为3个3×3的卷积核;使用LeakyReLU激活函数替代ReLU激活函数;改变残差块中批标准化层、激活函数与卷积层的排列顺序。进行数据预处理,将训练集与测试集的比例划分为4∶1,采用数据增强的方式对训练集进行扩充,将改进的ResNet-50模型经过迁移学习得到在ImageNet上预训练好的权重参数。实验结果表明,改进的网络在玉米叶片病害图像分类中得到了98.3%的正确率,与其他网络模型相比准确率大幅提升,鲁棒性进一步增强,可为玉米叶片病害的识别提供参考。  相似文献   

20.
针对现有的动作识别算法的特征提取复杂、识别率低等问题,提出了基于批归一化变换(batch normalization)与GoogLeNet网络模型相结合的网络结构,将图像分类领域的批归一化思想应用到动作识别领域中进行训练算法改进,实现了对视频动作训练样本的网络输入进行微批量(mini-batch)归一化处理。该方法以RGB图像作为空间网络的输入,光流场作为时间网络输入,然后融合时空网络得到最终动作识别结果。在UCF101和HMDB51数据集上进行实验,分别取得了93.50%和68.32%的准确率。实验结果表明,改进的网络架构在视频人体动作识别问题上具有较高的识别准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号