首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
梁喜涛  顾磊 《计算机科学》2015,42(6):228-232, 261
分词是中文自然语言处理中的一项关键基础技术.为了解决训练样本不足以及获取大量标注样本费时费力的问题,提出了一种基于最近邻规则的主动学习分词方法.使用新提出的选择策略从大量无标注样本中选择最有价值的样本进行标注,再把标注好的样本加入到训练集中,接着使用该集合来训练分词器.最后在PKU数据集、MSR数据集和山西大学数据集上进行测试,并与传统的基于不确定性的选择策略进行比较.实验结果表明,提出的最近邻主动学习方法在进行样本选择时能够选出更有价值的样本,有效降低了人工标注的代价,同时还提高了分词结果的准确率.  相似文献   

2.
为了克服训练样本不足、获取大量标注样本费时费力的问题,在基于不确定选择策略的基础上,提出了一种新的基于分层选择策略的主动学习方法。使用新提出的选择策略从大量无标注的样本中选择最有价值的样例,进行标注后加入到训练集中来训练分词器。最后在 PKU、MSR 和山西大学数据集上进行测试,并与不确定选择策略进行比较。结果表明提出的分层选择策略在相同大小的训练语料下可以获得更高的分词准确率,同时还降低了人工标注的代价。  相似文献   

3.
胡峰  张苗  于洪 《控制与决策》2019,34(4):718-726
主动学习是机器学习领域研究的热点之一,旨在解决样本无标签问题.将三支决策的思想应用到主动学习中,通过引入决策函数,并基于无标签样本的不确定性,将无标签样本划分为3个不同的域:正域、负域、边界域.针对不同区域的样本进行相应处理,提出一种基于三支决策理论的主动学习方法(TWD{_  相似文献   

4.
目前依存句法分析仍主要采用有指导的机器学习方法,即需要大规模高质量的树库作为训练语料,而现阶段中文依存树库资源相对较少,树库标注又是一件费时费力的工作。面对大量未标注语料,该文将主动学习应用到中文依存句法分析,优先选择句法模型预测不准的实例交由人工标注。该文提出并比较了多种衡量依存句法模型预测可信度的准则。实验表明,一方面,与随机选择标注实例相比,当使用相同数目训练实例时,主动学习使中文依存分析性能最高提升0.8%;另一方面,主动学习使依存分析达到相同准确率时只需标注更少量实例,人工标注量最多可减少30%。  相似文献   

5.
已有的基于度量方法的少样本学习直接在元学习框架下优化模型以在少样本任务上获得好的表现,但这种直接通过元学习策略训练得到的特征表示传递性较弱,从而限制了度量方法的分类能力。针对该问题提出一种新的模型结构,包括特征映射模块和分段度量模块。在基类数据上预先训练分类器并迁移到元学习的特征提取模块;在元学习阶段,对提取到的特征分多段进行余弦相似度的计算,以预测类别。实验在mini-imagenet数据集的5-way 1-shot和5-way 5-shot情况下分别达到64.33%和80.11%的准确率,在复杂场景下具有更好的识别效果。  相似文献   

6.
翟俊海  张素芳  王聪  沈矗  刘晓萌 《计算机应用》2018,38(10):2759-2763
针对传统的主动学习算法只能处理中小型数据集的问题,提出一种基于MapReduce的大数据主动学习算法。首先,在有类别标签的初始训练集上,用极限学习机(ELM)算法训练一个分类器,并将其输出用软最大化函数变换为一个后验概率分布。然后,将无类别标签的大数据集划分为l个子集,并部署到l个云计算节点上。在每一个节点,用训练出的分类器并行地计算各个子集中样例的信息熵,并选择信息熵大的前q个样例进行类别标注,将标注类别的l×q个样例添加到有类别标签的训练集中。重复以上步骤直到满足预定义的停止条件。在Artificial、Skin、Statlog和Poker 4个数据集上与基于ELM的主动学习算法进行了比较,结果显示,所提算法在4个数据集上均能完成主动样例选择,而基于ELM的主动学习算法只在规模最小的数据集上能完成主动样例选择。实验结果表明,所提算法优于基于极限学习机的主动学习算法。  相似文献   

7.
针对工业互联网结构复杂和已知攻击样本少导致的入侵检测准确率低的问题,文章提出一种基于主动学习的入侵检测系统(Active Learning-based Intrusion Detection System,ALIDS).该系统将专家标注引入到入侵检测过程中,将主动学习查询策略与LightGBM结合,解决了训练样本稀缺情...  相似文献   

8.
框架元素标注是中文FrameNet众多任务中亟待解决的一个问题,目前仍主要采用有监督的机器学习方法,即依赖大规模人工标注的例句作为训练语料。但例句标注又是一件费时费力的工作,所以为了降低人工标注的代价,该文将主动学习应用到框架元素标注中,优先选择训练模型预测最不准的例句交由人工标注。该文以条件随机场为标注模型,并提出了进行样本选择时所依赖的准则。实验表明,一方面,与随机选择样本进行标注相比,当使用相同数量的例句训练模型时,主动学习使框架元素标注的性能最高提升4.83%;另一方面,主动学习使框架元素标注达到同等F值时只需更少的标注例句,人工标注量最高可减少30%。  相似文献   

9.
张峻伟  吕帅  张正昊  于佳玉  龚晓宇 《软件学报》2022,33(11):4217-4238
深度强化学习将深度学习的表示能力和强化学习的决策能力结合,因在复杂控制任务中效果显著而掀起研究热潮.以是否用Bellman方程为基准,将无模型深度强化学习方法分为Q值函数方法和策略梯度方法,并从模型构建方式、优化历程和方法评估等方面对两类方法分别进行了介绍.针对深度强化学习方法中样本效率低的问题进行讨论,根据两类方法的模型特性,说明了Q值函数方法过高估计问题和策略梯度方法采样无偏性约束分别是两类方法样本效率受限的主要原因.从增强探索效率和提高样本利用率两个角度,根据近年来的研究热点和趋势归纳出各类可行的优化方法,分析相关方法的优势和仍存在的问题,并对比其适用范围和优化效果.最后提出增强样本效率优化方法的通用性、探究两类方法间优化机制的迁移和提高理论完备性作为未来的研究方向.  相似文献   

10.
K Means聚类算法由于无法准确确定初始化聚类中心,容易造成 聚类结果准确率低下。对微博数据聚类时,可能会导致无法正确反映兴趣热点。本文 设计了基于主动学习的聚类算法,在确定初始聚类中心过程中应用Min Max主动学习策略, 使 得算法每次在很小数量的查询后都会提供数据点供用户进行初始中心点确认,并在K Means算 法中重新计算聚类中心时设置其权重值,从而减少迭代的数量,提高聚类结果的准确 率,并将这一算法运用于微博聚类分析,得出微博热门话题。  相似文献   

11.
基于集成的非均衡数据分类主动学习算法   总被引:1,自引:0,他引:1  
当前,处理类别非均衡数据采用的主要方法之一就是预处理,将数据均衡化之后采取传统的方法加以训练.预处理的方法主要有过取样和欠取样,然而过取样和欠取样都有自己的不足,提出拆分提升主动学习算法SBAL( Split-Boost Active Learning),该算法将大类样本集根据非均衡比例分成多个子集,子集与小类样本集合并,对其采用AdaBoost算法训练子分类器,然后集成一个总分类器,并基于QBC( Query-by-committee)主动学习算法主动选取有效样本进行训练,基本避免了由于增加样本或者减少样本所带来的不足.实验表明,提出的算法对于非均衡数据具有更高的分类精度.  相似文献   

12.
深层神经网络在文档摘要方面取得了很好的效果,其优势只有在大数据集下才能显示出来.为了解决在使用深度学习做柬语单文档抽取式摘要时语料标注不足的问题,提出一种将主动学习和深度学习相结合的方法.利用主动学习抽样策略选择出定量的文档,通过专家标注,结合深度学习中编码器解码器模型进行训练模型抽取得到摘要.实验结果表明,在训练语料...  相似文献   

13.
少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALSMOTE。由于主动学习支持向量机采用基于距离的主动选择最佳样本的学习策略,因此能够主动选择非均衡数据中的有价值的多数类样本,舍弃价值较小的样本,从而提高运算效率,改进SMOTE带来的问题。首先运用SMOTE方法均衡小部分样本,得到初始分类器;然后利用主动学习策略调整分类器精度。实验结果表明,该方法有效提高了非均衡数据的分类准确率。  相似文献   

14.
设计一种PE格式恶意软件混淆对抗样本生成模型。利用深度强化学习算法,实现对恶意软件的自动混淆。通过加入历史帧和LSTM神经网络结构的方法使深度强化学习模型具有记忆性。对比实验表明,该恶意软件变种在基于机器学习的检测模型上的逃逸率高于现有研究,在由918个PE格式恶意软件组成的测试集上达到39.54%的逃逸率。  相似文献   

15.
通过创建虚拟样本的小样本人脸识别统计学习方法   总被引:2,自引:0,他引:2  
研究了人脸识别方法.在传统的“特征脸”方法基础上,提出了一种基于贝叶斯方法的小样本人脸识别方法,该方法对于经过预处理的标准人脸图像,通过原型脸创建虚拟样本,扩充样本数量,然后用PCA降维并提取人脸图像的特征.对提取的特征用BEM算法学习该类样本的概率密度分布参数,构建贝叶斯混合网络分类器.该方法可以有效地解决统计学习方法中样本数量不足问题,提高小样本人脸识别方法的识别率,同样可以运用于模式识别中其它对象识别.实验表明,该方法能提高小样本人脸识别率,有实际应用价值。  相似文献   

16.
针对方面类别或方面词项子任务的情感分析方法性能受单任务网络结构的限制,且相关任务的数据集不足.为此,提出一种基于多任务学习的方面级情感分析模型,共同学习两个子任务和方面词项重建任务.通过共享双向门控循环单元和Sentence-level的注意力对多个任务的句子向量编码,并利用Aspect-level的注意力针对不同方面...  相似文献   

17.
为解决医学上糖尿病性视网膜病变图像人工识别困难、精度差等问题,提出一种基于多特征融合的卷积神经网络识别方法。在VGG-16模型的基础上,通过融合每层网络上的局部特征,增强模型的特征提取能力。选用Softmax分类器,使病变图像识别更加准确。使用OpenCV图像处理工具采用加噪、上下左右不同角度翻转、调节对比度等5种方式扩充训练集。实验结果表明,基于多特征融合的深度学习框架图像识别系统在数据集上的平均识别精度达到94.23%,相较于Alex-Net、Google-Net、Compact-Net、ResNet-101等模型分别提高了10.56%、7.80%、6.01%、0.02%,验证了该方法的有效性。该模型具有很好的鲁棒性。  相似文献   

18.
Dyna-Q, a well-known model-based reinforcement learning (RL) method, interplays offline simulations and action executions to update Q functions. It creates a world model that predicts the feature values in the next state and the reward function of the domain directly from the data and uses the model to train Q functions to accelerate policy learning. In general, tabular methods are always used in Dyna-Q to establish the model, but a tabular model needs many more samples of experience to approximate the environment concisely. In this article, an adaptive model learning method based on tree structures is presented to enhance sampling efficiency in modeling the world model. The proposed method is to produce simulated experiences for indirect learning. Thus, the proposed agent has additional experience for updating the policy. The agent works backwards from collections of state transition and associated rewards, utilizing coarse coding to learn their definitions for the region of state space that tracks back to the precedent states. The proposed method estimates the reward and transition probabilities between states from past experience. Because the resultant tree is always concise and small, the agent can use value iteration to quickly estimate the Q-values of each action in the induced states and determine a policy. The effectiveness and generality of our method is further demonstrated in two numerical simulations. Two simulations, a mountain car and a mobile robot in a maze, are used to verify the proposed methods. The simulation result demonstrates that the training rate of our method can improve obviously.  相似文献   

19.
王继成  吕维雪 《软件学报》1996,7(7):428-434
本文根据多目标优化理论、认知科学和神经科学等学科的最新成果,提出了一种基于多目标优化的神经网络快速学习算法.实验结果表明,该学习算法可以解决目前神经网络普遍存在的学习时间长、容易陷入局部极小和网络结构优化难等问题.  相似文献   

20.
基于示例学习的特征空间变换方法   总被引:1,自引:0,他引:1  
特征空间是人工智能领域中经常用的基本概念之一,人工智能领域中的许多问题可以可以通过特征空间变换的方法化简和求解。文中提出了一种基于示例学习的特征空间变换方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号