共查询到20条相似文献,搜索用时 15 毫秒
1.
文章首先介绍文本分类预处理的几种方法及其不足之处,并提出一种改进的特征提取方法。然后,介绍几种文本分类算法,并指出其缺点。最后本文介绍支持向量机算法,结合改进后的文本预处理方法对网络文本进行分类,并通过与KNN对比分析说明了该算法的高效性能。 相似文献
2.
基于支持向量机的Web文本分类方法 总被引:7,自引:8,他引:7
Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结合决策树方法提出了一种基于决策树支持向量机的Web文本分类模型。并给出具体的算法。通过实验测试表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率(90.11%)和召回率(89.38%)。 相似文献
3.
基于内容图像分类技术中的特征分析 总被引:1,自引:2,他引:1
论文介绍了基于内容的图像检索技术(CBIR)的研究现状和相关技术,其中,特征提取是整个图像分类的关键,色彩和纹理都是CBIR常用到的图像视觉特征。文中提取了图像的颜色和纹理等六种特征.将所有的特征向量进行相应的组合,并采用SVM进行分类。最后,作者通过分析不同特征组合的识别效果,揭示了各种特征之间的内在联系,进而得到图像分类中的最佳特征组合。 相似文献
4.
5.
针对现有的新闻文本情感分析任务中,单一模型提取文本特征的片面性,且无法充分提取新闻文本语义等特征问题,提出一种基于门控单元特征融合的BERT-CNN情感分析方法。该方法分别采用BERT语言预训练模型与卷积神经网络(CNN)对新闻文本的特征向量进行提取;然后采用门控循环单元对提取到的文本特征进行特征融合;再输入到Softmax层进行新闻文本分类;最后从精准率、召回率和F1-Score三个维度对比BERT、BERT-CNN、BERT-DPCNN和BERT-ERNIE的实验结果。实验结果表明,当分类场景更换为情感识别时,BERT-CNN依旧具有强大的语义捕捉能力,证明了BERT-CNN的泛化能力;另外,从原BERT的提升效果看,基于门控单元特征融合的BERT-CNN方法(提升2.07%)比词向量的方法(提升0.31%)更高。这一结果也证明了基于门控单元特征融合的BERT-CNN方法的有效性。 相似文献
6.
7.
作为全波谱段高光谱卫星,"高分五号"卫星可提供丰富的遥感数据,研究利用"高分五号"卫星遥感图像实现精确的地物分类方法,这是实现高光谱遥感信息资源所有权的重要组成部分。文章立足于"高分五号"卫星数据,先进行遥感图像预处理,有效地消除大气干扰和噪声,优选核主成分分析方法进行"高分五号"卫星高光谱图像的特征提取,用最大似然法(MLE)、卷积神经网络(CNN)、支持向量机(SVM)3种分类器对高光谱图像数据分类。结果表明,RBF核的支持向量机分类器精度可达到97.889 7%,Kappa系数为0.966 7,比传统的最大似然法、神经网络分类方法分类精度分别高出15.478%,8.670 8%。由此可以实现"高分五号"卫星数据预处理,及其在土地利用分类应用上的可行性。 相似文献
8.
目前医院信息系统中还包括大量的非结构化数据,从中挖掘信息存在较大的难度。本研究采用ERNIE-TextCNN模型,对医学内镜报告进行文本分类。实验显示,相比单纯的ERNIE模型和TextCNN模型,ERNIE-TextCNN模型的精确率、召回率和F1分数上都有所提升,说明该模型能够有效地应用到医学文本分类领域。 相似文献
9.
针对目前网络上不良信息变换不同方式逃脱过滤以及中文分词器分词后存在的问题,提出了基于文本分类技术的信息过滤方法,通过在原有的文本自动分类系统中添加三个过滤模块,以过滤掉无用信息、单个独立字、敏感信息等不良内容,从而保障分类安全高效。 相似文献
10.
11.
在分析了文本中重要事件识别和文本分类方法的基础之上,提出了一种基于重要事件的文本分类方法.重点研究了该方法涉及到的两个关键技术:以重要事件表示文本和获取文本类别的模板.在中文事件语料CEC上,使用本文介绍的文本分类方法得到的平均准确率达到80%,而使用传统的以词为特征的文本分类方法得到的平均准确率为72%. 相似文献
12.
本文基于深度学习框架及自然语言处理,将政企类文本智能分类过程中的文本预处理、模型构建、分类效果比较等环节进行了实现与分析。自然语言处理是文本分类的有效手段,在所有的文本分类语境中,政企类文本因其文本较长、类别较多、文本质量不一等特点,在文本分类中取得的效果一般。而随着政务服务水平的提高以及对信息化、智能化的要求逐渐提高,政企类文本智能分类的实现变得更加重要。在实验过程中,本文采用了DNN、CNN、LSTM、BERT等模型进行实验处理,经过比较以及模型优化,最终取得了较优的结果,并分析了其在实际工程项目中的具体应用场景。 相似文献
13.
14.
《现代电子技术》2018,(8):167-170
针对当前文本分类神经网络不能充分提取词语与词语和句子与句子之间的语义结构特征信息的问题,提出一种基于LSTM-Attention的神经网络实现文本特征提取的方法。首先,分别使用LSTM网络对文本的词语与词语和句子与句子的特征信息进行提取;其次,使用分层的注意力机制网络层分别对文本中重要的词语和句子进行选择;最后,将网络逐层提取得到的文本特征向量使用softmax分类器进行文本分类。实验结果表明,所提方法可以有效地提取文本的特征,使得准确率得到提高。将该方法应用在IMDB,yelp2013和yelp2014数据集上进行实验,分别得到52.4%,66.0%和67.6%的正确率。 相似文献
15.
16.
数字内容的分类是向读者提供动态交互式服务的基础。数字内容的分类、保存和使用是动态变化的,相应的标准和体系也将不断地调整和修订。目前区域和全球的产品分类体系不完善,数字内容产品在这些体系中的归类不科学,有必要建立专门的数字内容分类体系。科学的内容分类体系是数字图书馆健康运行的保证,大学图书馆应该先行。 相似文献
17.
基于文本分类技术的垃圾邮件识别系统 总被引:7,自引:0,他引:7
文章介绍了一个基于文本分类技术识别垃圾邮件系统的体系结构,并介绍了该系统涉及到的中文信息处理、文本特征选取、朴素贝叶斯分类器等关键技术。最后,文章给出了针对部分垃圾邮件的处理结果。结果表明,该方法对于垃圾邮件的识别,具有较好的效果。 相似文献
18.
兰志成 《信息技术与信息化》2022,(6):138-141
针对以往建筑安全事故报告分类研究中模型不能自动获取充足的深层语义特征的问题,提出了一种融合图神经网络(graph neural network,GNN)与长短期记忆网络(long short-term memory,LSTM)的新型文本分类方法。该方法首先基于GNN为每份事故报告构建一张图;接着,使用LSTM将图中节点信息相互传递并更新节点表示;随后,将词节点的表示通过注意力机制聚合为更为丰富的深层文档特征表示;最后,采用分类器实现建筑安全事故报告分类任务。应用于建筑安全事故文本数据集上的实验结果表明,所提方法性能优于同类基准系统。 相似文献
19.
文本数据具有规模大、特征维数高等特点,当前文本分类方法无法刻画文本变化特点,使得文本分类正确率低、误差大、分类时间长,为了获得理想的文本分类效果,设计基于大数据挖掘技术的文本分类方法。首先对当前文本分类的研究进展进行分析,找出导致当前文本分类效果差的原因;然后,提取文本分类原始特征,并引入核主成分分析算法对原始特征进行处理,降低特征维数,简化文本分类器的结构;最后,采用大数据挖掘技术构建文本分类器,并与其他文本分类方法进行对比测试。测试结果表明,所提方法可以更好地描述文本变化特点,能够对各种类型文本进行准确识别和分类,文本分类精度超过95%,明显高于当前其他文本分类方法,并且所提方法的文本分类时间显著减少,具有更好的文本分类效果。 相似文献
20.
论文在研究了视频关键帧选取和特征提取技术的基础上,提出了一种基于内容的视频镜头分类方法,并将其应用于动漫/真人的视频镜头的分类,以检验所提方法的性能。实验首先提取了视频的语义特征,接着使用互信息对特征的有效性进行分析,最后使用支持向量机作为分类器,对特征分析的结果进行验证。 相似文献