首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
目的在多标签有监督学习框架中,构建具有较强泛化性能的分类器需要大量已标注训练样本,而实际应用中已标注样本少且获取代价十分昂贵。针对多标签图像分类中已标注样本数量不足和分类器再学习效率低的问题,提出一种结合主动学习的多标签图像在线分类算法。方法基于min-max理论,采用查询最具代表性和最具信息量的样本挑选策略主动地选择待标注样本,且基于KKT(Karush-Kuhn-Tucker)条件在线地更新多标签图像分类器。结果在4个公开的数据集上,采用4种多标签分类评价指标对本文算法进行评估。实验结果表明,本文采用的样本挑选方法比随机挑选样本方法和基于间隔的采样方法均占据明显优势;当分类器达到相同或相近的分类准确度时,利用本文的样本挑选策略选择的待标注样本数目要明显少于采用随机挑选样本方法和基于间隔的采样方法所需查询的样本数。结论本文算法一方面可以减少获取已标注样本所需的人工标注代价;另一方面也避免了传统的分类器重新训练时利用所有数据所产生的学习效率低下的问题,达到了当新数据到来时可实时更新分类器的目的。  相似文献   

2.
在很多信息处理任务中,人们容易获得大量的无标签样本,但对样本进行标注是非常费时和费力的。作为机器学习领域中一种重要的学习方法,主动学习通过选择最有信息量的样本进行标注,减少了人工标注的代价。然而,现有的大多数主动学习算法都是基于分类器的监督学习方法,这类算法并不适用于无任何标签信息的样本选择。针对这个问题,借鉴最优实验设计的算法思想,结合自适应稀疏邻域重构理论,提出基于自适应稀疏邻域重构的主动学习算法。该算法可以根据数据集各区域的不同分布自适应地选择邻域规模,同步完成邻域点的搜寻和重构系数的计算,能在无任何标签信息的情况下较好地选择最能代表样本集分布结构的样本。基于人工合成数据集和真实数据集的实验表明,在同等标注代价下,基于自适应稀疏邻域重构的主动学习算法在分类精度和鲁棒性上具有较高的性能。  相似文献   

3.
大规模Web信息抽取需要准确、自动地从众多相关网站上抽取Web数据对象.现有的Web信息抽取方法主要针对单个网站进行处理,无法适应大规模Web信息抽取的需要.调查研究表明,有效地实现Web数据语义自动标注,结合现有的包装器生成技术,可以满足大规模Web信息抽取的要求.文中提出一种基于集成学习和二维关联边条件随机场的Web数据语义自动标注方法,首先,利用已抽取的信息和目标网站训练页面中呈现的特征构造多个分类器,使用Dempster合成法则合并分类器结果,区分训练页面中的属性标签和数据元素;然后,利用二维关联边条件随机场模型对Web数据元素间的长距离依赖联系和短距离依赖联系进行建模,实现数据元素的自动语义标注.通过在多个领域真实数据集上的实验结果表明,所提出的方法可以高效地解决Web数据语义自动标注问题,满足大规模Web信息抽取的需要.  相似文献   

4.
《计算机工程》2017,(2):234-240
基于标签传播的半监督学习算法能够提升少量标注数据下的关系抽取效果,但是随机选择训练样本会使关系抽取性能降低。为了从海量的网络信息中提取出可靠性较高的人物关系,将标签传播算法与主动学习相结合用于人物关系抽取。在训练数据获取中,主动选择不确定性最大的样本进行标注。在人物关系上的实验结果显示,主动学习方法的引入可使平均F1值比标签传播算法提升2.3%。  相似文献   

5.
图像语义自动标注是实现图像语义检索与管理的关键,是具有挑战性的研究课题.传统的图像标注方法需要具有完整、准确标签的数据集才能取得较好的标注性能.然而,在现实应用中获得数据的标签往往是不准确、不完整的,并且标签分布不均衡.对于Web图像和社会化图像尤其如此.为了更好地利用这些弱标签样本,提出了一种基于语义邻域学习的图像自动标注方法(semantic neighborhood learning from weakly labeled image,SNLWL).首先在邻域标签损失误差最小化意义下,填充训练集样本标签.通过递进式的邻域选择过程,保证建立的语义一致邻域内样本具有全局相似性、部分相关性和语义一致性,并且语义标签分布平衡.在邻域标签重构误差最小化意义下进行标签预测,降低噪声标签对性能的影响.多个数据集上的实验结果表明,与已知的具有较好标注效果的方法相比,此方法更适用于处理弱标签数据集,标准评测集上的测试也表明了此方法的有效性.  相似文献   

6.
监督型顺序回归算法需要足够多的有标签样本,而在实践中,标注样本的序数耗时耗力,甚至难以完成。为此,提出一种集成最近邻规则的半监督顺序回归算法。基于最近邻,针对每个有标签样本,在无标签数据集选择与其最近似的若干样本赋以相同序数;再由监督型顺序回归算法训练有标签样本和新标注样本。多个数据集的实验结果显示,该方法能显著改善顺序回归性能。另外,引入折扣因子λ评估新标注样本的可信度,并讨论了λ和有标签数据集大小对方法的影响。  相似文献   

7.
现有的有监督可见光-近红外行人重识别方法需要大量人力资源去除手工标注数据,容易受到标注数据场景的限制,难以满足真实多变应用场景的泛化性.因此,文中提出基于语义伪标签和双重特征存储库的无监督跨模态行人重识别方法.首先,提出基于对比学习框架的预训练方法,利用可见光行人图像和其生成的辅助灰度图像进行训练.利用该预训练方法获取对颜色变化具有鲁棒性的语义特征提取网络.然后,使用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类方法生成语义伪标签.相比现有的伪标签生成方法,文中提出的语义伪标签在生成过程中充分利用跨模态数据之间的结构信息,减少跨模态数据颜色变化带来的模态差异.此外,文中还构建实例级困难样本特征存储库和中心级聚类特征存储库,充分利用困难样本特征和聚类特征,让模型对噪声伪标签具有更强的鲁棒性.在SYSU-MM01、RegDB两个跨模态数据集上的实验验证文中方法的有效性.  相似文献   

8.
目前基于PU问题的时间序列分类常采用半监督学习对未标注数据集[U]中数据进行自动标注并构建分类器,但在这种方法中,边界数据样本类别的自动标注难以保证正确性,从而导致构建分类器的效果不佳。针对以上问题,提出一种采用主动学习对未标注数据集[U]中数据进行人工标注从而构建分类器的方法OAL(Only Active Learning),基于投票委员会(QBC)对标注数据集构建多个分类器进行投票,以计算未标注数据样本的类别不一致性,并综合考虑数据样本的分布密度,计算数据样本的信息量,作为主动学习的数据选择策略。鉴于人工标注数据量有限,在上述OAL方法的基础上,将主动学习与半监督学习相结合,即在主动学习迭代过程中,将类别一致性高的部分数据样本自动标注,以增加训练数据中标注数据量,保证构建分类器的训练数据量。实验表明了该方法通过部分人工标注,相比半监督学习,能够为PU数据集构建更高准确率的分类器。  相似文献   

9.
在基于半监督和主动学习的信息抽取研究中,对初始样本集的选择,鲜有考虑样本在数据集中的分布情况。以林业领域的病虫害抽取为例,提出基于聚类的方法来获取样本在数据集中的分布信息,以此指导初始样本集和迭代过程中标注样本的选择。实验结果表明,基于聚类的方法相比于随机初始训练集,在不同标注样本集个数的情况下,模型f值均有提高。相比于单一的主动学习方法,在性能相近的情况下,节约了30%左右的人工标注量。  相似文献   

10.
梁喜涛  顾磊 《计算机科学》2015,42(6):228-232, 261
分词是中文自然语言处理中的一项关键基础技术.为了解决训练样本不足以及获取大量标注样本费时费力的问题,提出了一种基于最近邻规则的主动学习分词方法.使用新提出的选择策略从大量无标注样本中选择最有价值的样本进行标注,再把标注好的样本加入到训练集中,接着使用该集合来训练分词器.最后在PKU数据集、MSR数据集和山西大学数据集上进行测试,并与传统的基于不确定性的选择策略进行比较.实验结果表明,提出的最近邻主动学习方法在进行样本选择时能够选出更有价值的样本,有效降低了人工标注的代价,同时还提高了分词结果的准确率.  相似文献   

11.
针对现有事件因果关系抽取方法关系边界识别能力弱和文本语义表征不足的问题,提出一种基于双层CNN-BiGRU-CRF深度学习模型的事件因果关系抽取方法。将因果关系抽取任务转换为两次序列标注任务分别由两层CNN-BiGRU-CRF模型完成,上层模型用于识别事件因果关系语义角色词,其标注结果作为特征输入下层模型划分因果关系边界。在每层模型中,采用突发事件样本数据对BERT模型进行微调,形成文本表示模型以获取语义特征向量矩阵,利用卷积神经网络和双向门控循环单元分别提取局部和全局深层特征,并将上述特征在每个时间序列步进行线性加权融合以增强语义表征能力,最终基于残差思想将高区分度特征输入CRF模型解码完成序列标注任务。在中文突发事件语料集上的实验结果表明,与BiLSTM-Att-规则特征、GAN-BiGRU-CRF等因果关系抽取方法相比,该方法的事件因果关系抽取效果更好,F值达到91.81%,能有效实现事件因果关系的准确抽取。  相似文献   

12.
针对目前矿山领域异构数据融合时先验知识获取困难、物联网本体库实时性差、实例对象数据手动标注方式效率较低等问题,提出了一种矿山语义物联网自动语义标注方法。给出了传感数据语义化处理框架:一方面,确定本体的专业领域和范畴,通过重用流注释本体(SAO)构建领域本体,作为驱动语义标注的基础;另一方面,使用机器学习方法对感知数据流进行特征提取与数据分析,从海量数据中挖掘出概念间的关系;通过数据挖掘知识来驱动本体的更新与完善,实现本体的动态更新、拓展与更精确的语义标注,增强机器的理解力。以矿井提升系统主轴故障为例阐述从本体到实例化的语义标注过程:结合领域专家知识及本体重用,采用"七步法"建立矿井提升系统主传动故障本体;为了加强实例数据属性描述的准确性,使用主成分分析法(PCA)与K-means聚类方法对数据集进行降维和分组,提取出数据属性与概念的关系;通过基于语义Web的规则语言(SWRL)标注具体先行条件与后续概念的关系,优化领域本体。实验结果表明:在本体实例化过程中,可利用机器学习技术从传感数据中自动提取概念,实现传感数据的自动语义标注。  相似文献   

13.
目的 细粒度图像检索是当前细粒度图像分析和视觉领域的热点问题。以鞋类图像为例,传统方法仅提取其粗粒度特征且缺少关键的语义属性,难以区分部件间的细微差异,不能有效用于细粒度检索。针对鞋类图像检索大多基于简单款式导致检索效率不高的问题,提出一种结合部件检测和语义网络的细粒度鞋类图像检索方法。方法 结合标注后的鞋类图像训练集对输入的待检鞋类图像进行部件检测;基于部件检测后的鞋类图像和定义的语义属性训练语义网络,以提取待检图像和训练图像的特征向量,并采用主成分分析进行降维;通过对鞋类图像训练集中每个候选图像与待检图像间的特征向量进行度量学习,按其匹配度高低顺序输出检索结果。结果 实验在UT-Zap50K数据集上与目前检索效果较好的4种方法进行比较,检索精度提高近6%。同时,与同任务的SHOE-CNN(semantic hierarchy of attribute convolutional neural network)检索方法比较,本文具有更高的检索准确率。结论 针对传统图像特征缺少细微的视觉描述导致鞋类图像检索准确率低的问题,提出一种细粒度鞋类图像检索方法,既提高了鞋类图像检索的精度和准确率,又能较好地满足实际应用需求。  相似文献   

14.
Industrial tabular information extraction and its semantic fusion with text (ITIESF) is of great significance in converting and fusing industrial unstructured data into structured knowledge to guide cognitive intelligence analysis in the manufacturing industry. A novel end-to-end ITIESF approach is proposed to integrate tabular information and construct a tabular information-oriented causality event evolutionary knowledge graph (TCEEKG). Specifically, an end-to-end joint learning strategy is presented to mine the semantic information in tables. The definition and modeling method of the intrinsic relationships between tables with their rows and columns in engineering documents are provided to model the tabular information. Due to this, an end-to-end joint entity relationship extraction method for textual and tabular information from engineering documents is proposed to construct text-based knowledge graphs (KG) and tabular information-based causality event evolutionary graphs (CEEG). Then, a novel NSGCN (neighborhoods sample graph convolution network)-based entity alignment is proposed to fuse the cross-knowledge graphs into a unified knowledge base. Furthermore, a translation-based graph structure-driven Q&A (question and answer) approach is designed to respond to cause analysis and problem tracing. Our models can be easily integrated into a prototype system to provide a joint information processing and cognitive analysis. Finally, the approach is evaluated by employing the aerospace machining documents to illustrate that the TCEEKG can considerably help workers strengthen their skills in the cause-and-effect analysis of machining quality issues from a global perspective.  相似文献   

15.
传统图像标注方法中人工选取特征费时费力,传统标签传播算法忽视语义近邻,导致视觉相似而语义不相似,影响标注效果.针对上述问题,文中提出融合深度特征和语义邻域的自动图像标注方法.首先构建基于深度卷积神经网络的统一、自适应深度特征提取框架,然后对训练集划分语义组并建立待标注图像的邻域图像集,最后根据视觉距离计算邻域图像各标签的贡献值并排序得到标注关键词.在基准数据集上实验表明,相比传统人工综合特征,文中提出的深度特征维数更低,效果更好.文中方法改善传统视觉近邻标注方法中的视觉相似而语义不相似的问题,有效提升准确率和准确预测的标签总数.  相似文献   

16.
提出一种基于条件信息熵维度约简和多核支持向量机的程序语义标注方法,相对于传统的本体语义标注,该方法有如下特点:采用机器学习的方式,实现了软件语义的自动标注;通过重采样平衡了正负样本;利用条件信息熵对面向对象程序的模块样本特征进行维度约简,降低了问题的计算复杂度和开销,并给出了代数约简的转化方法;核函数采用多个基核函数线性组合的方式,兼顾了分类的学习能力和泛化性能。标注实例表明,该方法能保证较高的标注准确率,具有较好的实用性和推广性。  相似文献   

17.
周铭柯  柯逍  杜明智 《软件学报》2017,28(7):1862-1880
自动图像标注是一个包含众多标签、多样特征的富有挑战性的研究问题,是新一代图像检索与图像理解的关键步骤.针对传统基于浅层机器学习标注算法标注效率低下、难以处理复杂分类任务的问题,本文提出了基于栈式自动编码器(SAE)的自动图像标注算法,提升了标注效率和标注效果.全文主要针对图像标注数据不平衡问题,提出两种解决思路:对于标注模型,我们提出一种增强训练中低频标签的平衡栈式自动编码器(B-SAE),较好地改善了中低频标签的标注效果.并在此模型基础上提出一种分组强化训练B-SAE子模型的鲁棒平衡栈式自动编码器算法(RB-SAE),提升了标注的稳定性,从而保证模型本身具有较强地处理不平衡数据的能力;对于标注过程,我们以未知图像作为出发点,首先构造未知图像的局部均衡数据集,并判定该图像的高低频属性来决定不同的标注过程,局部语义传播算法(SP)标注中低频图像,RB-SAE算法标注高频图像,形成属性判别的标注框架(ADA),保证了标注过程具有较强地应对不平衡数据的能力,从而提升整体图像标注效果.通过在三个公共数据集上进行实验验证,结果表明,本文方法在许多指标上相比以往方法均有较大提高.  相似文献   

18.
目的 小样本学习旨在通过一幅或几幅图像来学习全新的类别。目前许多小样本学习方法基于图像的全局表征,可以很好地实现常规小样本图像分类任务。但是,细粒度图像分类需要依赖局部的图像特征,而基于全局表征的方法无法有效地获取图像的局部特征,导致很多小样本学习方法不能很好地处理细粒度小样本图像分类问题。为此,提出一种融合弱监督目标定位的细粒度小样本学习方法。方法 在数据量有限的情况下,目标定位是一个有效的方法,能直接提供最具区分性的区域。受此启发,提出了一个基于自注意力的互补定位模块来实现弱监督目标定位,生成筛选掩膜进行特征描述子的筛选。基于筛选的特征描述子,设计了一种语义对齐距离来度量图像最具区分性区域的相关性,进而完成细粒度小样本图像分类。结果 在mini Image Net数据集上,本文方法在1-shot和5-shot下的分类精度相较性能第2的方法高出0.56%和5.02%。在细粒度数据集Stanford Dogs和Stanford Cars数据集上,本文方法在1-shot和5-shot下的分类精度相较性能第2的方法分别提高了4.18%,7.49%和16.13,5.17%。在CUB 200-...  相似文献   

19.
赵小虎  李晓 《计算机应用》2021,41(6):1640-1646
针对图像语义描述方法中存在的图像特征信息提取不完全以及循环神经网络(RNN)产生的梯度消失问题,提出了一种基于多特征提取的图像语义描述算法。所构建模型由三个部分组成:卷积神经网络(CNN)用于图像特征提取,属性提取模型(ATT)用于图像属性提取,而双向长短时记忆(Bi-LSTM)网络用于单词预测。该模型通过提取图像属性信息来增强图像表示,从而精确描述图中事物,并且使用Bi-LSTM捕捉双向语义依赖,从而进行长期的视觉语言交互学习。首先,使用CNN和ATT分别提取图像全局特征与图像属性特征;其次,将两种特征信息输入到Bi-LSTM中生成能够反映图像内容的句子;最后,在Microsoft COCO Caption、Flickr8k和Flickr30k数据集上验证了所提出算法的有效性。实验结果表明,与m-RNN方法相比,所提出的算法在描述性能方面提高了6.8~11.6个百分点。所提算法能够有效地提高模型对图像的语义描述性能。  相似文献   

20.
李艳玲  颜永红 《计算机应用》2015,35(7):1965-1968
标注数据的获取一直是有监督方法需要面临的一个难题,针对中文口语理解任务中的意图识别研究了结合主动学习和自训练、协同训练两种弱监督训练方法,提出在级联框架下,从关键语义概念识别中获取语义类特征子集和句子本身的字特征子集分别作为两个"视角"的特征进行协同训练。通过在中文口语语料上进行的实验表明:结合主动学习和自训练的方法与被动学习、主动学习相比较,可以最大限度地降低人工标注量;而协同训练在很少的初始标注数据的前提下,利用两个特征子集进行协同训练,最终使得单一字特征子集上的分类错误率平均下降了0.52%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号