首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
为了提升传统多标签短文本自适应分类方法的分类准确率,提出基于改进rcnn模型的多标签短文本自适应分类方法.首先在多标签短文本数据集中提取多标签短文本的不同特征,将其作为传统机器学习模型以及深度模型的输入;然后结合Stacking技术对rcnn模型模型进行改进,通过改进的rcnn模型对多个基分类器的分类结果进行融合处理,...  相似文献   

2.
针对目前自然语言处理研究中,使用卷积神经网络(CNN)进行短文本分类任务时可以结合不同神经网络结构与分类算法以提高分类性能的问题,提出了一种结合卷积神经网络与极速学习机的CNN-ELM混合短文本分类模型。使用词向量训练构成文本矩阵作为输入数据,然后使用卷积神经网络提取特征并使用Highway网络进行特征优化,最后使用误差最小化极速学习机(EM-ELM)作为分类器完成短文本分类任务。与其他模型相比,该混合模型能够提取更具代表性的特征并能快速准确地输出分类结果。在多种英文数据集上的实验结果表明提出的CNN-ELM混合短文本分类模型比传统机器学习模型与深度学习模型更适合完成短文本分类任务。  相似文献   

3.
在针对短文本分类中文本特征稀疏难以提取、用词不规范导致OOV (out of vocabulary)等问题,提出了基于FastText模型多通道嵌入词向量,和GRU (gate recurrent unit)与多层感知机(multi-layer perceptron, MLP)混合网络结构(GRU-MLP hybrid network architecture, GM)的短文本分类模型GM-FastText.该模型使用FastText模型以N-gram方式分别产生不同的嵌入词向量送入GRU层和MLP层获取短文本特征,通过GRU对文本的特征提取和MLP层混合提取不同通道的文本特征,最后映射到各个分类中.多组对比实验结果表明:与TextCNN、TextRNN方法对比, GM-FastText模型F1指标提升0.021和0.023,准确率提升1.96和2.08个百分点;与FastText,FastText-CNN, FastText-RNN等对比, GM-FastText模型F1指标提升0.006、0.014和0.016,准确率提升0.42、1.06和1.41个百分点.通过对比发现,在Fas...  相似文献   

4.
司法文书短文本的语义多样性和特征稀疏性等特点,对短文本多标签分类精度提出了很大的挑战,传统单一模型的分类算法已无法满足业务需求.为此,提出一种融合深度学习与堆叠模型的多标签分类方法.该方法将分类器划分成两个层次,第一层使用BERT、卷积神经网络、门限循环单元等深度学习方法作为基础分类器,每个基础分类器模型通过K折交叉验...  相似文献   

5.
在保证文本分类准确率的情况下缩短分类时间一直是文本分类领域的一个研究目标。针对目前文本分类处理过程复杂且耗时过长的问题,将Facebook开源的句子分类和单词特征学习模型fastText引入到中文文本分类领域中,并验证其在中文分类中的效果。相对于目前主流的文本分类方法,基于fastText模型的分类方法在保证分类效果的同时,大大缩短了分类时间。此外,在分类准确率和参数设置方面进行分析并得出相应的优化规则。  相似文献   

6.
本文以比较购物搜索中的商品数据自动分类为应用背景,探讨短文本数据的分类问题,比较了常用的文本分类(Text Categorization)算法的特点,在此基础上提出k-NN与NB相结合的多分类器方案,对于NB算法分类不可信的情况下改用k-NN算法进行再次分类,并充分利用NB的中间结果供k-NN剪枝时作参考。实验数据表明该方法在与NB相近的时间复杂度下可明显地提高短文本分类的正确率和召回率,达到实际应用的要求。  相似文献   

7.
文章以比较购物搜索中的商品数据自动分类为应用背景,探讨短文本数据的分类问题,比较了常用的文本分类算法的特点,在此基础上提出k-NN与NB相结合的多分类器方案,对于NB算法分类不可信的情况下改用k-NN算法进行再次分类,并充分利用NB的中间结果供k-NN剪枝时作参考.实验数据表明该方法在与NB相近的时间复杂度下可明显地提高短文本分类的正确率和召回率,达到实际应用的要求.  相似文献   

8.
不同于长文本,短文本信息量缺乏,在研究中通常难以获得丰富的语义特征并且难以提取完整的句法特征,因此短文本分类模型的分类效果有待提升.针对这个问题进行了研究,基于ResLCNN模型进行改进,引入神经主题模型,并融合多个神经网络输出特征进行分类.首先,通过神经主题模型提取主题来丰富短文本的信息;其次,将主题信息储存在记忆网络中,并与序列信息进行融合,丰富文本的表示;最后,将其输入具有残差结构的卷积神经网络以及双向GRU中,提取局部以及全局的语义特征,在特征融合之后进行分类.该模型在Google网页搜索公开数据集中取得了较高的准确率和F1值,表明了改进模型在短文本分类任务中的有效性.  相似文献   

9.
短文本由于特征稀疏并且多歧义等特点,导致难以对其进行高效的分类。本文首先针对短文本的特点,介绍了短文本分类的研究现状,其次对短本文分类涉及到的技术及相关理论进行了阐述,并对文本预处理技术、Word2vec以及LDA模型等文本表示方法进行了重点分析。最后总结了短文本分类未来的发展趋势。  相似文献   

10.
郝婷  王薇 《软件工程》2023,(3):58-62
中文短文本具有长度短及上下文依赖强的特点,针对新闻主题文本用词不够规范、语义模糊、特征稀疏等问题,提出首先在词向量表示阶段引入Bert(双向Transformers编码器)生成融合字、文本及位置的词向量作为训练文本的词表征进行文本语义增强,然后将得到的词向量输送到BiLSTM(双向长短期记忆网络)网络中提取上下文关系特征,最后使用Softmax分类器进行文本分类,模型准确率达0.9391。通过与其他主流方法进行对比和实验验证,实验结果表明,文章提出的方法在进行新闻短文本分类时有良好效果。  相似文献   

11.
网络信息浩如烟海又纷繁芜杂,从中掌握最有效的信息是信息处理的一大目标,而文本分类是组织和管理数据的有力手段.由于最大熵模型可以综合观察到的各种相关或不相关的概率知识,具有对许多问题的处理都可以达到较好的结果的优势,将最大熵模型引入到中文文本分类的研究中,并通过使用一种特征聚合的算法改进特征选择的有效性.实验表明与Bayes、KNN和SVM这三种性能优越的算法相比,基于最大熵的文本分类算法可取得较之更优的分类精度.  相似文献   

12.
如何准确地实现文本的有序组织,是自然语言处理的一个重要研究方向。本文首先介绍了文本分类的研究现状,讨论了基于向量空间模型的分类法的基本思想。在此基础上,通过对文本识别本质的研究,在向量空间模型的基础上,提出一种新的结合了信息相关性分析的文本分类模型ICFM(Information Correlation based Fast text categorization Model),并以实验验证了该模型的性能。  相似文献   

13.
随着文本表现形式越来越丰富,文本分类研究的对象正从平文本逐渐转变为富文本,传统的平文本分类方法不能满足实际需要.分析了富文本中的结构化信息和文本内容信息,把它们作为两个重要的因素,综合考虑了其在分类中的作用,提出并实现了标签组件法、结构组件法和综合法三种富文本分类的方法.实验表明,所提出的方法有较好的分类表现,能解决OpenDocument的分类问题.  相似文献   

14.
为解决复杂拍摄背景下采集到的文本图像难以快速、准确地进行倾斜校正的问题,提出一种新的倾斜文本图像校正方法。该方法通过对选定图像的投影窗口的水平投影统计分析计算,自适应地筛选出只含有文字的文本特征子区。在特征子区内部,通过采用连通域横向搜索法定位文字行并拟合直线计算出文本线的倾斜角度,从而得到文本图像的倾斜角度,最后利用改进的快速旋转变换算法进行倾斜校正。实验结果表明,该倾斜校正方法不受成像背景、复杂版面的影响,具有速度快、精度高、适应性强的优点,可广泛应用于对速度和效率有更高要求的移动终端平台上。  相似文献   

15.
朴素贝叶斯分类方法由于其简单快速的特点,被广泛应用于文本分类领域。但是当训练集中各个类别的样本数据分布不均匀时,朴素贝叶斯方法分类精度不太理想。针对此问题,提出一种基于加权补集的朴素贝叶斯文本分类算法,该算法利用某个类别的补集的特征来表示当前类别的特征,且对特征权重进行归一化处理。通过实验对比了该方法与传统的朴素贝叶斯方法对文本分类效果的影响,结果表明,基于加权补集的朴素贝叶斯算法具有较好的文本分类效果。  相似文献   

16.
随着短文本网络舆情的快速传播和流行,传统主题模型的重心实现了从长文本到短文本的转变。针对潜在狄利克雷模型(Latent Dirichlet Allocation,LDA)在短文本上效果不佳的问题,系统地阐述文本特征表示法的变化、常见短文本处理方式和主题模型调整方案;总结LDA和狄利克雷多项混合模型(Dirichlet Multinomial Mixture,DMM)在生成过程、参数估计以及潜在主题个数确定上的发展现状及相应的扩展研究;对主题模型在网络舆情话题演化与深度学习在短文本上的相关应用进行分析,并指出未来主题模型的研究及应用方向。  相似文献   

17.
分析了特征选择采用互信息方法时文本分类性能较低的原因,认为与其在特征选择时倾向于选择稀有特征这一缺陷有很大关系。在此基础上,提出了一种基于分散度和平均频度的互信息特征选择方法。实验结果表明,改进后的互信息方法使文本分类性能有明显提高。  相似文献   

18.
概念推理网及其在文本分类中的应用   总被引:38,自引:1,他引:37  
在分析了当前文本分类中学常用方法的基础上,提出了一种新的分类模型,该模型是对人的分类过程的一种模拟,在已的有英语语义词典及大量训练集的基础上,应用机器学习、数据挖掘等技术进行知识获取并最终形成若干个概念推理网,对待分类的文档可以激活相应的网络,网时传播推理以决定其类别的归属,试验表明:该方法具有较高的分类正确率与召回率。  相似文献   

19.
Feature selection is an essential data processing step to remove irrelevant and redundant attributes for shorter learning time, better accuracy, and better comprehensibility. A number of algorithms have been proposed in both data mining and machine learning areas. These algorithms are usually used in a single table environment, where data are stored in one relational table or one flat file. They are not suitable for a multi‐relational environment, where data are stored in multiple tables joined to one another by semantic relationships. To address this problem, in this article, we propose a novel approach called FARS to conduct both Feature And Relation Selection for efficient multi‐relational classification. Through this approach, we not only extend the traditional feature selection method to select relevant features from multi‐relations, but also develop a new method to reconstruct the multi‐relational database schema and eliminate irrelevant tables to improve classification performance further. The results of the experiments conducted on both real and synthetic databases show that FARS can effectively choose a small set of relevant features, thereby enhancing classification efficiency and prediction accuracy significantly.  相似文献   

20.
一种实用化J2EE模型构架的分析和研究   总被引:3,自引:0,他引:3  
本文主要通过介绍J2EE模型的基本概念,以及对其核心构架的系统分析,提出了一种开发企业级Web应用服务的实用化J2EE模型构架,并结合了这些构架在实际项目中的使用经验,详细分析了这种Web应用开发模式的框架模型以及具体开发流程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号