首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
沈海龙  盛晓辉 《计算机应用研究》2023,40(4):1019-1023+1051
为了减少对有标记数据的依赖,充分利用大量无标记数据,提出了一个基于数据增强和相似伪标签的半监督文本分类算法(semi-supervised text classification algorithm with data augmentation and similar pseudo-labels, STAP)。该算法利用EPiDA(easy plug-in data augmentation)框架和自训练对少量有标记数据进行扩充,采用一致性训练和相似伪标签考虑无标记数据及其增强样本之间的关系和高置信度的相似无标记数据之间的关系,在有监督交叉熵损失、无监督一致性损失和无监督配对损失的约束下,提高无标记数据的质量。在四个文本分类数据集上进行实验,与其他经典的文本分类算法相比,STAP算法有明显的改进效果。  相似文献   

2.
吕佳  黎隽男 《计算机应用》2018,38(1):110-115
针对自训练方法在迭代中选出的置信度高的无标记样本所含信息量不大和自训练方法容易误标记无标记样本的问题,提出了一种结合半监督聚类和数据剪辑的Naive Bayes自训练方法。该自训练方法在每次迭代的时候,首先利用少量的有标记样本和大量的无标记样本进行半监督聚类,从而选出聚类隶属度高的无标记样本作Naive Bayes分类;然后利用数据剪辑技术来过滤掉聚类隶属度高而被Naive Bayes误分类的无标记样本。该数据剪辑技术能够同时利用有标记样本和无标记样本信息进行噪声过滤,解决了传统数据剪辑技术的性能可能因有标记样本数量匮乏而下降的问题。通过在UCI数据集上的对比实验,证明了所提算法的有效性。  相似文献   

3.
为解决监督学习过程中难以获得大量带有类标记样本且样本数据标记代价较高的问题,结合主动学习和半监督学习方法,提出基于Tri-training半监督学习和凸壳向量的SVM主动学习算法.通过计算样本集的壳向量,选择最有可能成为支持向量的壳向量进行标记.为解决以往主动学习算法在选择最富有信息量的样本标记后,不再进一步利用未标记样本的问题,将Tri-training半监督学习方法引入SVM主动学习过程,选择类标记置信度高的未标记样本加入训练样本集,利用未标记样本集中有利于学习器的信息.在UCI数据集上的实验表明,文中算法在标记样本较少时获得分类准确率较高和泛化性能较好的SVM分类器,降低SVM训练学习的样本标记代价.  相似文献   

4.
当前已有的数据流分类模型都需要大量已标记样本来进行训练,但在实际应用中,对大量样本标记的成本相对较高。针对此问题,提出了一种基于半监督学习的数据流混合集成分类算法SMEClass,选用混合模式来组织基础分类器,用K个决策树分类器投票表决为未标记数据添加标记,以提高数据类标的置信度,增强集成分类器的准确度,同时加入一个贝叶斯分类器来有效减少标记过程中产生的噪音数据。实验结果显示,SMEClass算法与最新基于半监督学习的集成分类算法相比,其准确率有所提高,在运行时间和抗噪能力方面有明显优势。  相似文献   

5.
并行化的半监督朴素贝叶斯分类算法   总被引:1,自引:0,他引:1  
针对当前需要对海量的文本数据进行分类和用于训练的带标记的文本数据非常匮乏这两个问题,结合半监督的朴素贝叶斯分类算法和Map-Reduce编程模型,提出了一种新型的并行化的半监督朴素贝叶斯分类(parallelized semi-supervised Nave Bayes,PSNB)算法。通过实验可以看出,PSNB算法不仅可以高效地处理海量的文本数据,还可以有效地利用无标记的文本数据来提高分类器准确率。  相似文献   

6.
郭涛  李贵洋  兰霞 《计算机工程》2012,38(13):163-165,168
在分类器训练过程中,无标记数据的引入容易产生噪音,从而降低分类精度。为此,提出一种基于图的置信度估计半监督协同训练算法。利用样本数据自身的结构信息,计算无标记样本所属类别概率。采用多分类器对无标记数据进行置信度估计,以提高无标记数据挑选标准,减少噪音数据的引入。在UCI数据集上的对比实验验证了该算法的有效性。  相似文献   

7.
半监督文本分类综述   总被引:3,自引:0,他引:3       下载免费PDF全文
文本分类是人们日常工作中经常遇到的问题,也是机器学习的重要研究内容.半监督学习算法同时考虑有标记和无标记数据,能显著提升学习效果.给出了文本分类的定义和特点,介绍了传统的监督学习分类算法和评价指标,对半监督文本分类的特点和基础理论进行了分析,并具体介绍了一些半监督文本分类算法,如贝叶斯方法和正则化方法.  相似文献   

8.
近年来,随着社交网络的发展,如何设计出符合用户个性化需求的路径推荐方法,已成为重要的研究热点.文中考虑了兴趣点的相关特征,将用户的情感与商品相似度融入蚁群算法的启发函数中,采用精英管理蚂蚁策略,最大化管理蚂蚁策略的改进策略,同时利用粒子群算法改进蚁群算法的初次信息素分布,结合数据集中593名游客的评分以及文本评论数据,提出基于粒子群-蚁群的旅游路径推荐算法(Particle Swarm-Ant Colony algorithm for user emotion and similarity,PS-AC)算法,并用改进后的蚁群算法实现环游景区内高人气景点的用户旅游路径推荐.基于真实的数据集测试表明,所提算法在精确率、召回率、F测度值上均有较好的性能.  相似文献   

9.
近年来,随着社交网络的发展,如何设计出符合用户个性化需求的路径推荐方法,已成为重要的研究热点.文中考虑了兴趣点的相关特征,将用户的情感与商品相似度融入蚁群算法的启发函数中,采用精英管理蚂蚁策略,最大化管理蚂蚁策略的改进策略,同时利用粒子群算法改进蚁群算法的初次信息素分布,结合数据集中593名游客的评分以及文本评论数据,提出基于粒子群-蚁群的旅游路径推荐算法(Particle Swarm-Ant Colony algorithm for user emotion and similarity,PS-AC)算法,并用改进后的蚁群算法实现环游景区内高人气景点的用户旅游路径推荐.基于真实的数据集测试表明,所提算法在精确率、召回率、F测度值上均有较好的性能.  相似文献   

10.
张玉红  陈伟  胡学钢 《计算机科学》2016,43(12):179-182, 194
现实生活中网络监控、网络评论以及微博等应用领域涌现了大量文本数据流,这些数据的不完全标记和频繁概念漂移给已有的数据流分类方法带来了挑战。为此,面向不完全标记的文本数据流提出了一种自适应的数据流分类算法。该算法以一个标记数据块作为起始数据块,对未标记数据块首先提取标记数据块与未标记数据块之间的特征集,并利用特征在两个数据块间的相似度进行概念漂移检测,最后计算未标记数据中特征的极性并对数据进行预测。实验表明了算法在分类精度上的优越性,尤其在标记信息较少和概念漂移较为频繁时。  相似文献   

11.
Traditional portfolio insurance (PI) strategy, such as constant proportion portfolio insurance (CPPI), only considers the floor constraint but not the goal aspect. This paper proposes a goal-directed (GD) strategy to express an investor’s goal-directed trading behavior and combines this floor-less GD strategy with the goal-less CPPI strategy to form a piecewise linear goal-directed CPPI (GDCPPI) strategy. The piecewise linear GDCPPI strategy shows that there is a wealth position M at the intersection of the GD and CPPI strategies. This M position guides investors to apply the CPPI strategy or the GD strategy depending on whether current wealth is less than or greater than M, respectively. In addition, we extend the piecewise linear GDCPPI strategy to a piecewise nonlinear GDCPPI strategy. This paper applies genetic algorithm (GA) technique to find better piecewise linear GDCPPI strategy parameters than those under the Brownian motion assumption. This paper also applies forest genetic programming (GP) technique to generate the piecewise nonlinear GDCPPI strategy. The statistical tests show that the GP strategy outperforms the GA strategy which in turn outperforms the Brownian strategy.  相似文献   

12.
本文讨论上级宣布策略后随从进行Nash不合作对策时的诱导问题.由于Nash不合作平衡点的不唯一性,本文提出了拟诱导策略,弱诱导策略和强诱导策略的概念。当随从目标函数是凸函数时,得到了仿射型拟诱导策略和仿射型弱诱导策略的存在条件与设计方法,当随从目标函数是正定二次函数时,得到了仿射型强诱导策略的存在条件与设计方法,并有示例说明本文的结论。  相似文献   

13.
自组织线性表在非等概率查找中具有较好的效率。本文在原有3种基本构造策略的基础上,提出一种新方法——移至中位策略。该策略优化自组织线性表中记录的调整方式,减少了累计记录比较次数,从而提高了查找响应速度。在实验测试中,提出平稳的查找过程和非平稳的查找过程的概念,并分别设计相应的测试用例。实验结果表明,移至中位策略的综合性能最好。  相似文献   

14.
校园网多出口路由优化方案   总被引:6,自引:0,他引:6  
主要通过一个实际的例子,阐述了综合运用策略路由技术、NAT技术以及策略DNS技术解决在多出口环境下提高通过校园网访问Internet的速度、降低费用以及提高从外部访问校园网内部资源的速度等方案研究与实现。  相似文献   

15.
基于Agent的信息搜索策略及规划   总被引:1,自引:0,他引:1  
论文用搜索策略来表示确定信息收集agent对主机进行信息查寻的规划和过程。由于在计算机网络条件下的搜索呈现出自身的特点,论文将搜索过程看作是一个三维空间,这个空间由条件、方法、信息源构成。文章给出了一种基于agent的信息查找策略。最后用AgentSpeak(L)描述了策略及其规划过程。  相似文献   

16.
针对猎人猎物优化算法寻优精度低和易陷入局部最优等问题,提出了一种基于领导者竞争策略的改进猎人猎物优化算法。首先将种群随机分为三个亚群,采用不同的搜索策略,扩大搜索范围;其次,采用精英组合突变策略,提升种群子代多样性,规避局部最优值;最后,提出领导者竞争策略,利用个体间的信息交流,统合各个策略,筛选出最优变量。通过数值实验以及在工程优化问题上的应用结果表明,所提算法相较于对比算法具有更为优异的寻优能力,验证了改进策略的有效性和可靠性。  相似文献   

17.
针对并行深度森林算法在处理大数据问题时存在的冗余与不相关特征过多,多粒度扫描不平衡以及并行化效率低等问题,提出了大数据环境下基于信息论改进的并行深度森林算法——IPDFIT(improved parallel deep forest based on information theory).该算法基于信息论设计了一种混...  相似文献   

18.
针对并行密度聚类算法在处理大数据集时存在伸缩困难、参数寻优能力不佳、并行化效率较低等问题,提出一种基于分组和重力搜索优化算法(improve gravitational search algorithm,IGSA)的并行密度聚类算法(densi-ty-based clustering algorithm based on groups and improve gravitational search,MR-GDBIGS).首先,该算法设计了基于图形的分组策略(grouping strategy based on pattern,GSP)来有效划分数据,加速邻域搜索,解决了处理大数据集时伸缩困难的问题;其次,在局部聚类中提出基于位置更新函数(position update function,PUF)的重力搜索优化算法,动态寻找局部聚类中的最优参数,提升了局部聚类的效果;最后,提出基于覆盖树的并行局部簇合并策略(cluster merging strategy by using MapReduce,MR-CTMC),在实现局部簇并行化合并的同时加快了合并局部簇的收敛速度,提升了算法整体的并行化效率.实验结果表明,MR-GDBIGS算法在处理大数据时的聚类效果更佳,且并行化性能更好.  相似文献   

19.
In this article we present a detailed, formal treatment of the linked inference principle, and we apply this principle to obtain the abstract formulations of various linked inference rules. Included among such rules are linked UR-resolution, linked hyperresolution, and linked binary resolution, each of which generalizes the corresponding standard and well-known inference rule. In addition to the formalism, we discuss the motivation and objectives for the formulation of linked inference rules. We also include experimental results and numerous examples. In particular, we show how and why the effectiveness of an automated reasoning program can be, and often is, markedly increased by relying on the linked version rather than the more familiar standard version of an inference rule.This work was supported by the Applied Mathematical Sciences subprogram of the Office of Energy Research, U.S. Department of Energy, under Contract W-31-109-Eng-38.  相似文献   

20.
持续学习作为一种在非平稳数据流中不断学习新任务并能保持旧任务性能的特殊机器学习范例,是视觉计算、自主机器人等领域的研究热点,但现阶段灾难性遗忘问题仍然是持续学习的一个巨大挑战。围绕持续学习灾难性遗忘问题展开综述研究,分析了灾难性遗忘问题缓解机理,并从模型参数、训练数据和网络架构三个层面探讨了灾难性遗忘问题求解策略,包括正则化策略、重放策略、动态架构策略和联合策略;根据现有文献凝练了灾难性遗忘方法的评估指标,并对比了不同灾难性遗忘问题的求解策略性能。最后对持续学习相关研究指出了未来的研究方向,以期为研究持续学习灾难性遗忘问题提供借鉴和参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号