首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
情绪分类是自然语言处理问题中的重要研究问题之一。情绪分类旨在对文本包含的情绪进行自动分类,该任务是情感分析的一项基本任务。然而,已有的研究都假设各情绪类别的样本数量平衡,这与实际情况并不相符合。该文的研究主要面向不平衡数据的情绪分类任务。具体而言,该文提出了一种基于多通道LSTM神经网络的方法来解决不平衡情绪分类问题。首先,该方法使用欠采样方法获取多组平衡训练语料;其次,使用每一组训练语料学习一个LSTM模型;最后,通过融合多个LSTM模型,获得最终分类结果。实验结果表明该方法明显优于传统的不平衡分类方法。  相似文献   

2.
程险峰  李军  李雄飞 《计算机工程》2011,37(13):147-149
针对不平衡数据学习问题,提出一种基于欠采样的分类算法。对多数类样例进行欠采样,保留位于分类边界附近的多数类样例。以AUC为优化目标,选择最恰当的邻域半径使数据达到平衡,利用欠采样后的样例训练贝叶斯分类器,并采用AUC评价分类器性能。仿真数据及UCI数据集上的实验结果表明,该算法有效。  相似文献   

3.
结合改进主动学习的SVD-CNN弹幕文本分类算法   总被引:1,自引:0,他引:1  
为解决传统卷积神经网络(CNN)模型使用池化层进行文本特征降维会损失较多文本语义信息的问题,提出一种基于奇异值分解(SVD)算法的卷积神经网络模型(SVD-CNN)。首先,采用改进的基于密度中心点采样的主动学习算法(DBC-AL)选择对分类模型贡献率较高的样本进行标注,以低标注代价获得高质量模型训练集;然后,结合SVD算法建立SVD-CNN弹幕文本分类模型,使用奇异值分解的方法代替传统CNN模型池化层进行特征提取和降维,并在此基础上完成弹幕文本分类任务;最后,使用改进的梯度下降算法(PSGD)对模型参数进行优化。为了验证改进算法的有效性,使用多种弹幕数据样本集,对提出的模型与常用的文本分类模型进行对比实验。实验结果表明,改进的算法能够更好地保留文本语义特征,保证训练过程的稳定性并提高了模型的收敛速度,在不同的弹幕文本上较传统算法具有更好的分类性能。  相似文献   

4.
针对文本多分类算法中,由于不平衡数据集产生的小样本分类数据准确率低问题,提出基于轮廓系数动态K-means聚类的文本多分类混合式均分聚类采样算法.在不平衡数据集中针对小样本数据集利用聚类簇进行等比例过采样,针对大样本数据集利用聚类簇进行欠采样.基于微博灾害数据集,设计文本卷积神经网络,对该算法进行实验验证与分析,实验结果表明,该算法能够有效提升文本不平衡数据集的准确率和F1值,较好解决了不平衡文本数据集分类问题.  相似文献   

5.
文本情绪分类中消极情绪往往对决策者有着很重要的借鉴作用,然而很多情况下,消极情绪是难以识别的少部分.为了提高消极情绪的分类效果,提出了一种融合随机森林和逻辑回归的改进Stacking模型.该模型采用多次欠采样训练多个随机森林作为初级分类器,采用逻辑回归作为次级分类器,基于Amazon电子商务平台的购物评论数据集进行了验证.实验结果表明,该模型能够有效提高不平衡文本分类的分类效率.  相似文献   

6.
不平衡数据分类是机器学习研究领域中的一个热点问题。针对传统分类算法处理不平衡数据的少数类识别率过低问题,文章提出了一种基于聚类的改进AdaBoost分类算法。算法首先进行基于聚类的欠采样,在多数类样本上进行K均值聚类,之后提取聚类质心,与少数类样本数目一致的聚类质心和所有少数类样本组成新的平衡训练集。为了避免少数类样本数量过少而使训练集过小导致分类精度下降,采用少数过采样技术过采样结合聚类欠采样。然后,借鉴代价敏感学习思想,对AdaBoost算法的基分类器分类误差函数进行改进,赋予不同类别样本非对称错分损失。实验结果表明,算法使模型训练样本具有较高的代表性,在保证总体分类性能的同时提高了少数类的分类精度。  相似文献   

7.
《微型机与应用》2015,(17):81-84
针对极端学习机算法对不平衡数据分类问题的处理效果不够理想,提出了一种基于聚类欠采样的极端学习机算法。新算法首先对训练集的负类样本进行聚类生成不同的簇,然后在各簇中按规定的采样率对其进行欠采样,取出的样本组成新的负类数据集,从而使训练集正负类数据个数达到相对平衡,最后训练分类器对测试集进行测试。实验结果表明,新算法有效地降低了数据的不平衡对分类准确率的影响,具有更好的分类性能。  相似文献   

8.
数据不平衡会严重影响传统分类算法的性能,不平衡数据分类是机器学习领域的一个热点和难点问题.为提高不平衡数据集中少数类样本的检出率,提出一种改进的随机森林算法.该算法的核心是对每一棵通过Bootstrap采样后的随机森林子树数据集进行混合采样.首先采用基于高斯混合模型的逆权重上采样,然后基于SMOTE-borderline1算法进行级联上采样,再用随机下采样方式进行下采样,得到每棵子树的平衡训练子集,最后以决策树为基学习器实现改进机随机森林不平衡数据分类算法.此外,以G-mean和AUC为评价指标,在15个公开数据集上将所提算法与10种不同算法进行比较,结果显示其两项指标的平均排名和平均值均为第一.进一步,在其中9个数据集上将其与6种state-of-the-art算法进行比较,在32次结果对比中,所提算法有28次取得的成绩都优于其他算法.实验结果表明,所提算法有助于提高少数类的检出率,具有更好的分类性能.  相似文献   

9.
为提高分类算法在信贷风险领域不平衡数据的预测性能,提出一种基于高斯混合模型(Gaussian mixture model,GMM)的欠采样算法,将其应用在信贷不平衡数据领域中。采用高斯混合模型对多数类样本进行聚类欠采样(under-sampling),消除样本间的不平衡问题。实验比较该算法与传统的欠采样方法,进行该算法的抗噪鲁棒性分析,实验结果表明,该算法能够有效提升分类器的性能,其对信贷数据集具有较强的鲁棒性。  相似文献   

10.
针对传统单个分类器在不平衡数据上分类效果有限的问题,基于对抗生成网络(GAN)和集成学习方法,提出一种新的针对二类不平衡数据集的分类方法——对抗生成网络-自适应增强-决策树(GAN-AdaBoost-DT)算法。首先,利用GAN训练得到生成模型,生成模型生成少数类样本,降低数据的不平衡性;其次,将生成的少数类样本代入自适应增强(AdaBoost)模型框架,更改权重,改进AdaBoost模型,提升以决策树(DT)为基分类器的AdaBoost模型的分类性能。使用受测者工作特征曲线下面积(AUC)作为分类评价指标,在信用卡诈骗数据集上的实验分析表明,该算法与合成少数类样本集成学习相比,准确率提高了4.5%,受测者工作特征曲线下面积提高了6.5%;对比改进的合成少数类样本集成学习,准确率提高了4.9%,AUC值提高了5.9%;对比随机欠采样集成学习,准确率提高了4.5%,受测者工作特征曲线下面积提高了5.4%。在UCI和KEEL的其他数据集上的实验结果表明,该算法在不平衡二分类问题上能提高总体的准确率,优化分类器性能。  相似文献   

11.
尝试将word embedding和卷积神经网络(CNN)相结合来解决情感分类问题。首先,利用Skip-Gram模型训练出数据集中每个词的word embedding,然后将每条样本中出现的word embedding组合为二维特征矩阵作为卷积神经网络的输入;此外,每次迭代训练过程中,输入特征也作为参数进行更新。其次,设计了一种具有3种不同大小卷积核的神经网络结构,从而完成多种局部抽象特征的自动提取过程。与传统机器学习方法相比,所提出的基于word embedding和CNN的情感分类模型成功将分类正确率提升了5.04%。  相似文献   

12.
自适应增强卷积神经网络图像识别   总被引:2,自引:0,他引:2       下载免费PDF全文
目的 为了进一步提高卷积神经网络的收敛性能和识别精度,增强泛化能力,提出一种自适应增强卷积神经网络图像识别算法。方法 构建自适应增强模型,分析卷积神经网络分类识别过程中误差产生的原因和误差反馈模式,针对分类误差进行有目的地训练,实现分类特征基于迭代次数和识别结果的自适应增强以及卷积神经网络权值的优化调整。自适应增强卷积神经网络与多种算法在收敛速度和识别精度等性能上进行对比,并在多种数据集上检测自适应卷积神经网络的泛化能力。结果 通过对比实验可知,自适应增强卷积神经网络算法可以在很大程度上优化收敛效果,提高收敛速度和识别精度,收敛时在手写数字数据集上的误识率可降低20.93%,在手写字母和高光谱图像数据集上的误识率可降低11.82%和15.12%;与不同卷积神经网络优化算法对比,误识率比动态自适应池化算法和双重优化算法最多可降低58.29%和43.50%;基于不同梯度算法的优化,误识率最多可降低33.11%;与不同的图像识别算法对比,识别率也有较大程度提高。结论 实验结果表明,自适应增强卷积神经网络算法可以实现分类特征的自适应增强,对收敛性能和识别精度有较大的提高,对多种数据集有较强的泛化能力。这种自适应增强模型可以进一步推广到其他与卷积神经网络相关的深度学习算法中。  相似文献   

13.
针对垃圾网页检测过程中轻微的不平衡分类问题,提出三种随机欠采样集成分类器算法,分别为一次不放回随机欠采样(RUS-once)、多次不放回随机欠采样(RUS-multiple)和有放回随机欠采样(RUS-replacement)算法。首先使用其中一种随机欠采样技术将训练样本集转换成平衡样本集,然后对每个平衡样本集使用分类回归树(CART)分类器算法进行分类,最后采用简单投票法构建集成分类器对测试样本进行分类。实验表明,三种随机欠采样集成分类器均取得了良好的分类效果,其中RUS-multiple和RUS-replacement比RUS-once的分类效果更好。与CART及其Bagging和Adaboost集成分类器相比,在WEBSPAM UK-2006数据集上,RUS-multiple和RUS-replacement方法的AUC指标值提高了10%左右,在WEBSPAM UK-2007数据集上,提高了25%左右;与其他最优研究结果相比,RUS-multiple和RUS-replacement方法在AUC指标上能达到最优分类结果。  相似文献   

14.
张枭山  罗强 《计算机科学》2015,42(Z11):63-66
在面对现实中广泛存在的不平衡数据分类问题时,大多数 传统分类算法假定数据集类分布是平衡的,分类结果偏向多数类,效果不理想。为此,提出了一种基于聚类融合欠抽样的改进AdaBoost分类算法。该算法首先进行聚类融合,根据样本权值从每个簇中抽取一定比例的多数类和全部的少数类组成平衡数据集。使用AdaBoost算法框架,对多数类和少数类的错分类给予不同的权重调整,选择性地集成分类效果较好的几个基分类器。实验结果表明,该算法在处理不平衡数据分类上具有一定的优势。  相似文献   

15.
网络作弊检测是搜索引擎的重要挑战之一,该文提出基于遗传规划的集成学习方法 (简记为GPENL)来检测网络作弊。该方法首先通过欠抽样技术从原训练集中抽样得到t个不同的训练集;然后使用c个不同的分类算法对t个训练集进行训练得到t*c个基分类器;最后利用遗传规划得到t*c个基分类器的集成方式。新方法不仅将欠抽样技术和集成学习融合起来提高非平衡数据集的分类性能,还能方便地集成不同类型的基分类器。在WEBSPAM-UK2006数据集上所做的实验表明无论是同态集成还是异态集成,GPENL均能提高分类的性能,且异态集成比同态集成更加有效;GPENL比AdaBoost、Bagging、RandomForest、多数投票集成、EDKC算法和基于Prediction Spamicity的方法取得更高的F-度量值。  相似文献   

16.
基于集成的非均衡数据分类主动学习算法   总被引:1,自引:0,他引:1  
当前,处理类别非均衡数据采用的主要方法之一就是预处理,将数据均衡化之后采取传统的方法加以训练.预处理的方法主要有过取样和欠取样,然而过取样和欠取样都有自己的不足,提出拆分提升主动学习算法SBAL( Split-Boost Active Learning),该算法将大类样本集根据非均衡比例分成多个子集,子集与小类样本集合并,对其采用AdaBoost算法训练子分类器,然后集成一个总分类器,并基于QBC( Query-by-committee)主动学习算法主动选取有效样本进行训练,基本避免了由于增加样本或者减少样本所带来的不足.实验表明,提出的算法对于非均衡数据具有更高的分类精度.  相似文献   

17.
Classification in imbalanced domains is a recent challenge in data mining. We refer to imbalanced classification when data presents many examples from one class and few from the other class, and the less representative class is the one which has more interest from the point of view of the learning task. One of the most used techniques to tackle this problem consists in preprocessing the data previously to the learning process. This preprocessing could be done through under-sampling; removing examples, mainly belonging to the majority class; and over-sampling, by means of replicating or generating new minority examples. In this paper, we propose an under-sampling procedure guided by evolutionary algorithms to perform a training set selection for enhancing the decision trees obtained by the C4.5 algorithm and the rule sets obtained by PART rule induction algorithm. The proposal has been compared with other under-sampling and over-sampling techniques and the results indicate that the new approach is very competitive in terms of accuracy when comparing with over-sampling and it outperforms standard under-sampling. Moreover, the obtained models are smaller in terms of number of leaves or rules generated and they can considered more interpretable. The results have been contrasted through non-parametric statistical tests over multiple data sets.  相似文献   

18.
The deep learning model encompasses a powerful learning ability that integrates the feature extraction, and classification method to improve accuracy. Convolutional Neural Networks (CNN) perform well in machine learning and image processing tasks like segmentation, classification, detection, identification, etc. The CNN models are still sensitive to noise and attack. The smallest change in training images as in an adversarial attack can greatly decrease the accuracy of the CNN model. This paper presents an alpha fusion attack analysis and generates defense against adversarial attacks. The proposed work is divided into three phases: firstly, an MLSTM-based CNN classification model is developed for classifying COVID-CT images. Secondly, an alpha fusion attack is generated to fool the classification model. The alpha fusion attack is tested in the last phase on a modified LSTM-based CNN (CNN-MLSTM) model and other pre-trained models. The results of CNN models show that the accuracy of these models dropped greatly after the alpha-fusion attack. The highest F1 score before the attack was achieved is 97.45 And after the attack lowest F1 score recorded is 22%. Results elucidate the performance in terms of accuracy, precision, F1 score and Recall.  相似文献   

19.
李超  严馨 《计算机应用研究》2021,38(11):3283-3288
针对柬语标注数据较少、语料稀缺,柬语句子级情感分析任务进步缓慢的问题,提出了一种基于深度半监督CNN(convolutional neural networks)的柬语句子级情感极性分类方法.该方法通过融合词典嵌入的分开卷积CNN模型,利用少量已有的柬语情感词典资源提升句子级情感分类任务性能.首先构建柬语句子词嵌入和词典嵌入,通过使用不同的卷积核对两部分嵌入分别进行卷积,将已有情感词典信息融入到CNN模型中去,经过最大延时池化得到最大输出特征,把两部分最大输出特征拼接后作为全连接层输入;然后通过结合半监督学习方法——时序组合模型,训练提出的深度神经网络模型,利用标注与未标注语料训练,降低对标注语料的需求,进一步提升模型情感分类的准确性.结果 证明,通过半监督方法时序组合模型训练,在人工标记数据相同的情况下,该方法相较于监督方法在柬语句子级情感分类任务上准确率提升了3.89%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号