首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
提出了一种基于BP神经网络和主成分分析的文本分类模型。该模型利用主成分分析实现对特征矩阵的降维,通过大量的模拟实验逐步优化BP网络的各项参数。在20_newgroups数据集上的模拟实验表明,该模型具有较好的性能并能得到较高的分类精度。  相似文献   

2.
特征选择和分类算法是文本分类中的两个关键技术,提出了基于主成分分析和KNN相结合的文本分类方法。该方法利用主成分分析对文本向量的高维空间进行特征选择,为克服因类别特征选择不当带来的不利影响,使用KNN算法进行分类可以最大程度地减少分类过程中的误差。为了验证方法的有效性,针对UCI标准数据集进行仿真实验。实验结果显示,PCA-KNN方法优于主成分分析和随机森林相结合的方法,能在一定程度上提高文本分类的精度。  相似文献   

3.
基于主成分分析的特征简化   总被引:13,自引:2,他引:11  
特征评述与简化是模式识别研究中至关重要的任务,本文介绍了降维映射的主成分分析特征评选与简化方法,提出了以神经网络实现主要成分分析的结构和算法,为模式识别特征简化提供了一条有效途径。  相似文献   

4.
基于主成分分析与神经网络的非线性评价模型   总被引:12,自引:0,他引:12  
针对评价过程的非线性特征,运用神经网络高度非线性映射能力,建立了一种非线性综合评价模型。采用主成分分析法对评价指标进行处理,形成了新的指标体系,有效的消除了原指标间的相关性,降低了神经网络的输入维数。利用Matlab软件对地区经济发展水平的综合评价进行实例分析和仿真,得到了较满意的结果,说明了该模型的有效性。  相似文献   

5.
为了有效解决中文文本分类问题,提高文本分类的准确性,提出一种基于TF-IDF和神经网络相结合的文本自动分类算法——TI-LSTM算法。算法根据语义情景提取相应特征,进行量化,通过长短期神经网络(LSTM)对量化后的特征进行训练并赋予权重,最后以特征权重为依据对中文文本信息进行评价。使用TI-LSTM算法可以在保留原文语义的情况下准确提取特征。将该算法应用到长春理工大学贫困生等级分类研究中。与传统的KNN、逻辑回归、朴素贝叶斯和LSTM分类方法进行了比较,训练和测试的准确率都有了较大的提升,准确率达到了86%以上。  相似文献   

6.
为解决单一的卷积神经网络(CNN)缺乏利用上下文本信息与单一循环神经网络(RNN)对局部信息把握不全面问题,提出一种基于注意力机制的多通道TextCNN-BiGRU分类模型.首先,通过word2vec对初始文本向量化,经实验选取窗口值组成三通道.然后利用CNN的强学习能力提取局部特征,利用双向门控循环单元(BiGRU)提取上下文全局信息,运用注意力层与池化层获取并优化重要的特征.最后采用softmax函数使误差loss极小化.仿真实验结果表明,提出的模型分类性能,准确度达94%,损失函数值稳定在0.22%左右,具有良好的泛化能力,能够有效解决单一模型挖掘信息不全问题,有效提高分类效果.  相似文献   

7.
基于主成分分析的神经网络评价模型研究   总被引:8,自引:1,他引:8  
根据供电企业的特点,建立了适用于评价供电企业营销效果的指标体系,综合运用主成分分析法和BP神经网络方法建立模型,对供电企业的营销效果进行了模拟综合评价。  相似文献   

8.
针对电信数据维度增加导致的客户欠费预测算法复杂度过高的问题,提出基于主成分分析和分类回归树的电信客户欠费预测算法。该算法将原始电信数据进行数据缺失值处理、数据冗余识别和数据结构化后,进行数据规范化建模,利用主成分分析算法对建模后的电信数据进行降维处理,将降维后的数据作为分类回归树算法的输入数据对客户是否欠费进行分类,预测客户是否将存在欠费行为。利用实际电信数据进行验证,结果表明该算法的预测错误率为4.49%,预测耗时为17.05s,与分类回归树算法相比,在能够预测客户欠费的同时,还能提高预测效率。  相似文献   

9.
针对招标文件中因数据稀疏导致的特征提取困难影响分类准确率的问题,提出了一种基于极端梯度提升(eXtreme gradient boosting,XGBoost)和文本聚焦表示模型的分类方法.聚焦表示部分通过提取对分类结果有显著影响的关键字段部分,使用N-Gram分词,结合词性级词频-逆文档频率(term frequen...  相似文献   

10.
基于主成分分析的BP神经网络在岩性识别中的应用   总被引:1,自引:0,他引:1  
提出一种将主成分分析和BP神经网络相结合的方法对测井资料进行岩性识别。首先将原始测井数据进行主成分分析,分析结果作为PCABP神经网络的学习样本进行训练,建立测井解释的PCA—BP神经网络岩性识别模型.并用该模型对测试样本进行识别。结果表明该方法同传统的BP神经网络相比.不仅简化了网络结构(网络的输入神经元个数由5个减少为2个),网络收敛速度也加快了21%.而且识别的准确率提高了25%。  相似文献   

11.
针对文本分类问题,从分片线性学习的角度出发,提出了一种文本分类的组合凸线性感知器模型.首先,对文本样本集进行预处理,包括特征选择、特征项赋权等;然后,分别利用生长支持组合凸线性感知器算法(growing support multiconlitron algorithm,GSMA)和支持组合凸线性感知器算法(support multiconlitron algorithm,SMA)构造组合凸线性感知器,对样本集进行分类.该模型基于支持向量机的最大间隔思想,通过集成线性分类器,实现了对2类数据的划分,具有计算简单、适应能力强的优点.在标准文本数据集上的实验结果表明:该模型所构造的分类器具有良好的文本分类性能,与其他典型文本分类方法的对比也说明了该方法的有效性.  相似文献   

12.
介绍了文本分类技术和文本倾向性分类技术,并基于文本倾向性分类技术分析了图书评论中的信息,研究如何将机器学习方法应用在图书评论的倾向性分类中,提出了一种图书评价模型构建的解决方法.  相似文献   

13.
基于描述文本的网络攻击自动化分类是实现APT攻击知识智能抽取的重要基础.针对网络攻击文本专业词汇多、难识别,语义上下文依赖强、难判断等问题提出一种基于上下文语义分析的文本词句特征自动抽取方法,通过构建BERT与BiLSTM的混合神经网络模型BBNN(BERT and BiLSTM Neural Network),计算得...  相似文献   

14.
提出并实现了一种结合BP神经网络和遗传算法的文本分类算法,根据遗传算法能够快速优化网络权重以及摆脱BP算法局部极点困扰的能力,提出一种改进的遗传算法确定网络拓扑结构和训练网络的方法.最后对设计的分类器进行了开放性测试,实验结果表明该分类器显著地提高了文本分类的查全率和查准率.  相似文献   

15.
为了加强商业银行对客户信用风险的事先控制,降低银行运营风险,需要对客户按信用等级进行分类,以便执行不同的信用风险控制策略。文中基于主成分分析法和BP神经网络法,建立了客户信用评价模型。结果表明,利用此信用风险评价模型能够准确地判断银行客户所处的信用等级,具有广泛的适用性。  相似文献   

16.
针对短文本数据特征少、提供信息有限,以及传统卷积神经网络(convolutional neural network,CNN)和循环神经网络(recurrent neural network,RNN)对短文本特征表示不充分的问题,提出基于串并行卷积门阀循环神经网络的文本分类模型,处理句子特征表示与短文本分类。该网络在卷积层中去除池化操作,保留文本数据的时序结构和位置信息,以串并行的卷积结构提取词语的多元特征组合,并提取局部上下文信息作为RNN的输入;以门阀循环单元(gated recurrent unit,GRU)作为RNN的组成结构,利用文本的时序信息生成句子的向量表示,输入带有附加边缘距离的分类器中,引导网络学习出具有区分性的特征,实现短文本的分类。实验中采用TREC、MR、Subj短文本分类数据集进行测试,对网络超参数选择和卷积层结构对分类准确率的影响进行仿真分析,并与常见的文本分类模型进行了对比实验。实验结果表明:去掉池化操作、采用较小的卷积核进行串并行卷积,能够提升文本数据在多元特征表示下的分类准确率。相较于相同参数规模的GRU模型,所提出模型的分类准确率在3个数据集中分别提升了2.00%、1.23%、1.08%;相较于相同参数规模的CNN模型,所提出模型的分类准确率在3个数据集中分别提升了1.60%、1.57%、0.80%。与Text-CNN、G-Dropout、F-Dropout等常见模型相比,所提出模型的分类准确率也保持最优。因此,实验表明所提出模型可改善分类准确率,可实际应用于短文本分类场景。  相似文献   

17.
在分析主成分分析PCA和独立分量分析ICA的基础上,建立了基于PCA和ICA的结构损伤识别构架。利用它们对结构损伤信号进行特征提取,并将提取的特征作为3层BP神经网络的输入,以实现对结构损伤的识别。这2个模型通过British Columbia大学IASC-ASHM任务组提供的用于验证分类正确性的结构基准数据集合进行测试。结果显示:PCA和ICA都能降低信号中噪音的影响,并对特征进行有效提取;基于ICA的模型比基于PCA的模型预测更准确。  相似文献   

18.
为了解决单一卷积神经网络(CNN)缺乏利用文本上下文信息的能力和简单循环神经网络(RNN)无法解决长时依赖的问题,提出CNN-BiLSTM网络引入注意力模型的文本情感分析方法。首先利用CNN的特征强学习能力提取局部特征,再利用双向长短时记忆网络(BiLSTM)提取上下文相关特征的能力进行深度学习,最后,增加注意力层获取重要特征,使模型提取到有效的特征。在IMDB数据集上Accuracy值和均方根误差(RMSE)值分别达到90.34%和0.296 7,在Twitter数据集上Accuracy值和RMSE值分别达到76.90%、0.417 4,且模型时间代价小。结果表明,本文提出的模型有效提升了文本分类的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号