首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
问题分类旨在对问题的类型进行自动分类,该任务是问答系统研究的一项基本任务。提出了一种基于答案辅助的半监督问题分类方法。首先,将答案特征结合问题特征一起实现样本表示;然后,利用标签传播方法对已标注问题训练分类器,自动标注未标注问题的类别;最后,将初始标注的问题和自动标注的问题合并作为训练样本,利用最大熵模型对问题的测试文本进行分类。实验结果表明,本文提出的基于答案辅助的半监督分类方法能够充分利用未标注样本提升性能,明显优于其他的基准方法。  相似文献   

2.
基于集成学习的半监督情感分类方法研究   总被引:1,自引:0,他引:1  
情感分类旨在对文本所表达的情感色彩类别进行分类的任务。该文研究基于半监督学习的情感分类方法,即在很少规模的标注样本的基础上,借助非标注样本提高情感分类性能。为了提高半监督学习能力,该文提出了一种基于一致性标签的集成方法,用于融合两种主流的半监督情感分类方法:基于随机特征子空间的协同训练方法和标签传播方法。首先,使用这两种半监督学习方法训练出的分类器对未标注样本进行标注;其次,选取出标注一致的未标注样本;最后,使用这些挑选出的样本更新训练模型。实验结果表明,该方法能够有效降低对未标注样本的误标注率,从而获得比任一种半监督学习方法更好的分类效果。  相似文献   

3.
目前药物不良反应(ADR)研究使用的数据主要来源于英文语料,较少选用存在标注数据稀缺问题的中文医疗社交媒体数据集,导致对中文医疗社交媒体的研究有限。为解决标注数据稀缺的问题,提出一种新型的ADR检测方法。采用ERNIE预训练模型获取文本的词向量,利用BiLSTM模型和注意力机制学习文本的向量表示,并通过全连接层和softmax函数得到文本的分类标签。对未标注数据进行文本增强,使用分类模型获取低熵标签,此标签被作为原始未标注样本及其增强样本的伪标签。此外,将带有伪标签的数据与人工标注数据进行混合,在分类模型的编码层和分类层间加入Mixup层,并在文本向量空间中使用Mixup增强方法插值混合样本,从而扩增样本数量。通过将数据增强和半监督学习相结合,充分利用标注数据与未标注数据,实现ADR的检测。实验结果表明,该方法无需大量的标注数据,缓解了标注数据不足对检测结果的影响,有效提升了药物不良反应检测模型的性能。  相似文献   

4.
现有的维吾尔文命名实体识别主要采用基于条件随机场的统计学习方法,但依赖于人工提取的特征工程和领域知识。针对该问题,该文提出了一种基于深度神经网络的学习方法,并引入不同的特征向量表示。首先利用大规模未标注语料训练的词向量模型获取每个单词具有语义信息的词向量;其次,利用Bi-LSTM提取单词的字符级向量;然后,利用直接串联法或注意力机制处理词向量和字符级向量,进一步获取联合向量表示;最后,用Bi-LSTM-CRF深度神经网络模型进行命名实体标注。实验结果表明,以基于注意力机制的联合向量表示作为输入的Bi-LSTM-CRF方法在维吾尔文命名实体识别上F值达到90.13%。  相似文献   

5.
针对海冰遥感图像分类问题中标签样本获取困难、标注成本较高导致海冰分类精度难以提高的问题,提出了一种主动学习与半监督学习相结合的方式用于海冰分类。首先,利用基于不确定性准则和多样性准则进行主动学习方法,选择一批最具信息量的标签样本建立标签样本集;其次,充分利用大量的未标签样本信息,并融合主动学习采样的思想选出部分具有代表性且分布在支持向量周边的半标签样本,建立半监督分类模型;最后,将主动学习方法和直推式支持向量机相结合构建分类模型实现海冰图像分类。实验结果表明,相对于其他方法,该方法在只有少量标签样本的情况下,可以获得更高的分类精度,该方式可有效解决遥感海冰分类问题。  相似文献   

6.
针对全极化SAR图像在监督分类中存在的人工标注样本费时费力以及多种极化特征未能综合利用等问题,提出一种基于协同训练与集成学习的极化SAR图像半监督分类方法。该方法以支持向量机作为半监督学习的基分类器,通过协同学习机制将多种极化目标分解下的特征有效结合,实现同时利用无标注和有标注样本,最后通过集成学习进一步提高分类模型的泛化能力。在AIRSAR和EMISAR影像上的实验表明,该方法能充分利用不同特征的特点,在较少人工标注的样本下也能获得较高的分类精度。  相似文献   

7.
摘 要: 针对生物文献库中人工标注样本数量缺乏的问题,提出一种半监督类型的基于联合训练的方法。在样本预处理的基础上,基于词特征的机器学习方法和基于模式学习的方法选择样本的不同特征子集,并被合成到联合训练方法中。在训练过程中每种方法能够利用少量初始标注样本和大量未标注样本进行学习,并用另一方法的学习结果扩充标注样本集。该方法在AIMED语料库中获得了63.9%的F1值,比较实验结果表明,该方法性能优于监督方法,且能有效利用未标注样本以适应实际抽取任务。  相似文献   

8.
情感分类是目前自然语言处理领域的一个热点研究问题。该文关注情感分类中的半监督学习方法(即基于少量标注样本和大量未标注样本进行学习的方式),提出了一种新的基于动态随机特征子空间的半监督学习方法。首先,动态生成多个随机特征子空间;然后,基于协同训练(Co-training)在每个特征子空间中挑选置信度高的未标注样本;最后使用这些挑选出的样本更新训练模型。实验结果表明我们的方法明显优于传统的静态产生方式及其他现有的半监督方法。此外该文还探索了特征子空间的划分数目问题。  相似文献   

9.
本文提出一种基于半监督主动学习的算法,用于解决在建立动态贝叶斯网络(DBN)分类模型时遇到的难以获得大量带有类标注的样本数据集的问题.半监督学习可以有效利用未标注样本数据来学习DBN分类模型,但是在迭代过程中易于加入错误的样本分类信息,并因而影响模型的准确性.在半监督学习中借鉴主动学习,可以自主选择有用的未标注样本来请求用户标注.把这些样本加入训练集之后,能够最大程度提高半监督学习对未标注样本分类的准确性.实验结果表明,该算法能够显著提高DBN学习器的效率和性能,并快速收敛于预定的分类精度.  相似文献   

10.
方面提取是观点挖掘和情感分析任务中的关键一步,随着社交网络的发展,用户越来越倾向于根据评论信息来帮助进行决策,并且用户也更加关注评论的细粒度的信息,因此,从海量的网络评论数据中快速挖掘方面信息对于用户快速决策具有重要意义。大部分基于主题模型和聚类的方法在方面提取的一致性上效果并不好,传统的监督学习的方法效果虽然表现很好,但是需要大量的标注文本作为训练数据,标注文本需要消耗大量的人力成本。基于以上问题,本文提出一种基于半监督自训练的方面提取方法,充分利用现存的大量未标签的数据价值,在未标签数据集上通过词向量模型寻找方面种子词的相似词,对每个方面建立与数据集最相关的方面表示词集合,本文方法避免了大量的文本标注,充分利用未标签数据的价值,并且本文方法在中文和英文数据集上都表现出了理想的效果。  相似文献   

11.
李志恒 《计算机应用研究》2021,38(2):591-594,599
针对机器学习中训练样本和测试样本概率分布不一致的问题,提出了一种基于dropout正则化的半监督域自适应方法来实现将神经网络的特征表示从标签丰富的源域转移到无标签的目标域。此方法从半监督学习的角度出发,在源域数据中添加少量带标签的目标域数据,使得神经网络在学习到源域数据特征分布的同时也能学习到目标域数据的特征分布。由于有了先验知识的指导,即使没有丰富的标签信息,神经网络依然可以很好地拟合目标域数据。实验结果表明,此算法在几种典型的数字数据集SVHN、MNIST和USPS的域自适应任务上的性能优于现有的其他算法,并且在涵盖广泛自然类别的真实数据集CIFAR-10和STL-10的域自适应任务上有较好的鲁棒性。  相似文献   

12.
卷积神经网络(CNN)在半监督学习中取得了良好的成绩,其在训练阶段既利用有标记样本,也利用无标记样本帮助规范化学习模型。为进一步加强半监督模型的特征学习能力,提高其在图像分类时的性能表现,本文提出一种联合深度半监督卷积神经网络和字典学习的端到端半监督学习方法,称为Semi-supervised Learning based on Sparse Coding and Convolution(SSSConv);该算法框架旨在学习到鉴别性更强的图像特征表示。SSSConv首先利用CNN提取特征,并对所提取特征进行正交投影变换,下一步通过学习其稀疏编码的低维嵌入以得到图像的特征表示,最后据此进行分类。整个模型框架可进行端到端的半监督学习训练,CNN提取特征部分和稀疏编码字典学习部分具有统一的损失函数,目标一致。本文利用共轭梯度下降算法、链式法则和反向传播等算法对目标函数的参数进行优化,将稀疏编码的相关参数约束于流形上,CNN参数既可定义在欧氏空间,也可以进一步定义在正交空间中。基于半监督分类任务的实验结果验证了所提出SSSConv框架的有效性,与现有方法相比具有较强的竞争力。  相似文献   

13.
自动问答系统对用户自然语言方式提出的问题,给出快速准确的答案,引起了学术界与工业界的广泛关注。问题分类任务通过自动判断问题类型,对提高问答系统回答问题的准确率具有重要意义。本文利用问题和答案的上下文信息,结合卷积神经网络和循环神经网络各自的优势,提出一种混合深度学习模型。除此之外,为了增强问题特征的表达能力,该模型引入注意力机制,提升模型的泛化能力。在360问答数据集进行对比实验验证,实验表明,本文模型相比于传统方法提升了1.6%~5.6%。  相似文献   

14.
针对问句文本通常较短、语义信息与词语共现信息不足等问题,提出一种多层级注意力卷积长短时记忆模型(multi-level attention convolution LSTM neural network,MAC-LSTM)的问题分类方法。相比基于词嵌入的深度学习模型,该方法使用疑问词注意力机制对问句中的疑问词特征重点关注。同时,使用注意力机制结合卷积神经网络与长短时记忆模型各自文本建模的优势,既能够并行方式提取词汇级特征,又能够学习更高级别的长距离依赖特征。实验表明,该方法较传统的机器学习方法和普通的卷积神经网络、长短时记忆模型有明显的效果提升。  相似文献   

15.
An incremental online semi-supervised active learning algorithm, which is based on a self-organizing incremental neural network (SOINN), is proposed. This paper describes improvement of the two-layer SOINN to a single-layer SOINN to represent the topological structure of input data and to separate the generated nodes into different groups and subclusters. We then actively label some teacher nodes and use such teacher nodes to label all unlabeled nodes. The proposed method can learn from both labeled and unlabeled samples. It can query the labels of some important samples rather than selecting the labeled samples randomly. It requires neither prior knowledge, such as the number of nodes, nor the number of classes. It can automatically learn the number of nodes and teacher vectors required for a current task. Moreover, it can realize online incremental learning. Experiments using artificial data and real-world data show that the proposed method performs effectively and efficiently.  相似文献   

16.
荣光辉  黄震华 《计算机应用》2017,37(10):2861-2865
面向中文问答匹配任务,提出基于深度学习的问答匹配方法,以解决机器学习模型因人工构造特征而导致的特征不足和准确率偏低的问题。在该方法中,主要有三种不同的模型。首先应用组合式的循环神经网络(RNN)与卷积神经网络(CNN)模型去学习句子中的深层语义特征,并计算特征向量的相似度距离。在此模型的基础上,加入两种不同的注意力机制,根据问题构造答案的特征表示去学习问答对中细致的语义匹配关系。实验结果表明,基于组合式的深度神经网络模型的实验效果要明显优于基于特征构造的机器学习方法,而基于注意力机制的混合模型可以进一步提高匹配准确率,其结果最高在平均倒数排序(MRR)和Top-1 accuray评测指标上分别可以达到80.05%和68.73%。  相似文献   

17.
为了在半监督情境下利用多视图特征中的信息提升分类性能,通过最小化输入特征向量的局部重构误差为以输入特征向量为顶点构建的图学习合适的边权重,将其用于半监督学习。通过将最小化输入特征向量的局部重构误差捕获到的输入数据的流形结构应用于半监督学习,有利于提升半监督学习中标签预测的准确性。对于训练样本图像的多视图特征的使用问题,借助于改进的典型相关分析技术学习更具鉴别性的多视图特征,将其有效融合并用于图像分类任务。实验结果表明,该方法能够在半监督情境下充分地挖掘训练样本的多视图特征表示的鉴别信息,有效地完成鉴别任务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号