首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
图卷积神经网络在文本分类领域受到广泛关注,但同时存在过平滑的问题。此外,现有研究中掩码机制是在文本结构上进行融合,可能并不完全适用于基于图卷积神经网络的文本分类方法。因此,该文针对图结构提出了融合掩码机制的图卷积神经网络MaskGCN,直接将掩码机制引入文本图结构,并采用全局共享矩阵动态构建文本级别的多粒度文本图。在THUCNews、今日头条和SougoCS数据集上的实验表明,该文模型在有效抑制过平滑的同时,相比于其他文本分类模型取得了较优的结果。  相似文献   

2.
随着图卷积网络的发展,图卷积网络已经应用到很多任务中,其中就包含文本分类任务.通过将文本数据表示成图数据,进而在图上应用图卷积,从而捕获文本的结构信息和单词间的长距离依赖关系获得了良好的分类效果.但将文本建模成图模型后,图卷积网络面临着文本上下文语义信息和局部特征信息表示不充分的问题.提出一种新的模型,利用双向长短时记...  相似文献   

3.
文本分类是自然语言处理领域中常见的任务,机器学习和深度学习在该任务中已有较多研究并取得了很大进展,然而,这些传统方法只能处理欧氏空间的数据,不能完全有效地表达出文本的语义信息。为了打破传统的学习模式,诸多研究开始尝试用图表示文本中各实体间的丰富关系,并利用图卷积神经网络学习文本表示。文中对基于图卷积神经网络的文本分类方法进行了综述,首先概述了图卷积神经网络的背景与原理;其次,利用不同类型的图网络详细阐述了基于图卷积神经网络的文本分类方法,同时分析了图卷积神经网络在网络深度上的局限性,并介绍了深层网络在文本分类任务上的最新进展;最后,通过实验比较了各模型的分类性能,并探讨了该领域的难点与未来的发展方向。  相似文献   

4.
文本分类任务是自然语言处理领域内一个重要的研究问题.近年来,因处理复杂网络结构的出色能力,图神经网络模型(Graph Neural Network,GNN)受到广泛关注并被引入到文本分类任务中.在之前的研究中,基于图卷积网络(Graph Convolu-tional Neural Network,GCN)的分类模型使用...  相似文献   

5.
针对图嵌入式文本分类方法在预测性能和归纳能力方面的缺陷,在文本图卷积网络(TextGCN)的基础上,进行适当改进。结合预测文本嵌入(PTE)的高效训练和归纳性,在各个网络层中使用不同的图;通过异质图卷积网络架构来学习特征嵌入,利用习得的特征进行归纳推理。实验结果表明,在大量训练样本标注的情况下,所提方法取得了与其它方法相当或稍优的性能。在少量训练样本标注的情况下,所提方法表现更优,性能增益范围为2%~7%,支持更快的训练和泛化性。  相似文献   

6.
近年来,图神经网络模型因其对非欧氏数据的建模和对全局依赖关系的捕获能力而广泛应用于文本分类任务。现有的基于图卷积网络的分类模型中的构图方法存在消耗内存过大、难以适应新文本等问题。此外,现有研究中用于描述图节点间的全局依赖关系的方法并不完全适用于分类任务。为解决上述问题,该文设计并提出了基于概率分布的文本分类网络模型,以语料库中的词和标签为节点构建标签-词异构关系图,利用词语在各标签上的概率分布描述节点间的全局依赖关系,并通过图卷积操作进行文本表示学习。在5个公开的文本分类数据集上的实验表明,该文提出的模型在有效缩减图尺寸的同时,相比于其他文本分类网络模型取得了较为先进的结果。  相似文献   

7.
为了提高文本分类的准确率并解决文本图卷积神经网络对节点特征利用不足的问题,提出了一种新的文本分类模型,其内在融合了文本图卷积和Stacking集成学习方法的优点。该模型首先通过文本图卷积神经网络学习文档和词的全局表达以及文档的语法结构信息,再通过集成学习对文本图卷积提取的特征进行二次学习,以弥补文本图卷积节点特征利用不足的问题,提升单标签文本分类的准确率以及整个模型泛化能力。为了降低集成学习的时间消耗,移除了集成学习中的k折交叉验证机制,融合算法实现了文本图卷积和Stacking集成学习方法的关联。在R8、R52、MR、Ohsumed、20NG等数据集上的分类效果相对于传统的分类模型分别提升了1.5%、2.5%、11%、12%、7%以上,该方法在同领域的分类算法比较中表现优异。  相似文献   

8.
针对PU(Positive and Unlabeled)文本分类问题,提出了一种基于图卷积网络的PU文本分类算法(GCN-PU),基本思想是给未标注样本加以不同的损失权重。将未标注样本全部视为负类样本,用以训练基于卷积神经网络的文本分类器;取卷积神经网络的倒数第二层的向量为文本的特征向量,以及对应的类别概率,作为图卷积网络的输入;利用图卷积网络得出的类别概率计算每个未标注样本的损失权重,重新训练文本分类器。不断重复上述三个步骤,直到算法参数稳定。在公开数据集20newsgroup上的实验结果表明,GCN-PU算法优于现有的方法,尤其在正类样本较少的情况下。  相似文献   

9.
图卷积神经网络GCN已经广泛应用于文本分类任务中,但GCN在文本分类时仅仅根据词语的共现关系来构建文本图,忽略了文本语言本身的规律关系,如语义关系与句法关系,并且GCN不善于提取文本上下文特征和序列特征。针对上述问题,该文提出了一种文本分类模型SEB-GCN,其在文本词共现图的基础上加入了句法文本图与语义文本图,再引入ERNIE和残差双层BiGRU网络来对文本特征进行更深入的学习,从而提高模型的分类效果。实验结果表明,该文提出的SEB-GCN模型在四个新闻数据集上,分类精确度对比其他模型分别提高4.77%、4.4%、4.8%、3.4%、3%,且分类收敛速度也明显快于其他模型。  相似文献   

10.
由于短文本长度较短,在分类时会面临数据稀疏和语义模糊等问题.提出新型图卷积网络BTM_GCN,该网络利用双项主题模型(Biterm Topic Model,BTM)在短文本数据集上训练出固定数量的文档级潜在主题,并作为一种节点嵌入到文本异构图中,再与异构图中的文档节点进行连接,最后利用图卷积网络来捕获文档、词与主题节点...  相似文献   

11.
分词系统由于未将合成词收录进词典,因此不能识别合成词。针对该问题,提出一种基于词共现有向图的中文合成词提取算法。采用词性探测方法从文本中获取词串,由所获词串生成词共现有向图,并借鉴Bellman-Ford算法思想,从词共现有向图中搜索多源点长度最长且权重值满足给定条件的路径,该路径所对应的词串即为合成词。实验结果显示,该算法的合成词提取正确率达到91.16%。  相似文献   

12.
传统的基于规则或统计的文本分类方法存在许多问题。本文利用词语相关度网络提供的大量词语语义知识设计一种"简监督"文本分类方法,从理论和技术上解决文本分类问题,以求在认知心理符合程度、人工标注困难等层面上克服传统方法的缺陷。实验证明文章设计的方法计算结果较为准确,具有一定的可行性和应用前景。  相似文献   

13.
基于上下文的短信文本分类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
针对海量短信文本数据中大量词语共现的特点,提出一种基于上下文的短信文本分类方法。利用词语的上下文关系,定义词语相似度和基于上下文的词语权值,科学地表达词语在该类别中的语义表示,以提高短信文本分类效率。实验结果表明,与传统的简单向量距离分类法相比,该方法的分类效果较优。  相似文献   

14.
针对文本挖掘中存在的特征空间高维性问题,提出了一种基于词聚类的文本特征描述方法,旨在通过机器学习的方法挖掘词汇之间的语义关联,动态构造特定领域的概念词典,借助构造的概念来描述文本的特征,该方法不借助主题词典,先从训练语料中对词的共现情况进行分析,用词聚类(word clustering)生成由种子词(seedwords...  相似文献   

15.
周红鹃  祖永亮 《计算机工程》2011,37(21):114-116
针对K最近邻(KNN)方法分类准确率高但分类效率较低的特点,提出基于后验概率制导的贝叶斯K最近邻(B-KNN)方法。利用测试文本的后验概率信息对训练集多路静态搜索树进行剪枝,在被压缩的候选类型空间内查找样本的K个最近邻,从而在保证分类准确率的同时提高KNN方法的效率。实验结果表明,与KNN相比,B-KNN的性能有较大提升,更适用于具有较深层次类型空间的文本分类应用。  相似文献   

16.
方面级别文本情感分析旨在分析文本中不同方面所对应的情感趋向。传统基于神经网络的深度学习模型在文本情感分析的过程中,大多直接使用注意力机制而忽略了句法关系的重要性,即不能充分利用方面节点的上下文语义信息,导致情感趋向预测效果不佳。针对该问题,设计一种融合句法信息的图注意力神经网络模型,并将其应用于文本情感分析任务。利用预训练模型BERT进行词嵌入得到初始词向量,将初始词向量输入双向门控循环神经网络以增强特征向量与上下文信息之间的融合,防止重要上下文语义信息丢失。通过融合句法信息的图注意力网络加强不同方面节点之间的交互,从而提升模型的特征学习能力。在SemEval-2014数据集上的实验结果表明,该模型能够充分利用句法信息进行情感分析,其准确率较LSTM及其变种模型至少提升3%,对Restaurant评论进行情感分类预测时准确率高达83.3%。  相似文献   

17.
刘佳  贾彩燕 《计算机工程》2010,36(16):36-38
介绍一种树状朴素贝叶斯(TAN)文本分类模型,对该模型存在的阈值选取问题进行实验分析,提出不需要进行阈值选取的TAN文本自动分类框架(ATAN)。在中英文非均匀类分布测试集上对基于ATAN的2种算法与手动选取阈值达到最优性能的BL-TAN进行对比,结果表明基于ATAN的算法具有更高性能。  相似文献   

18.
在文本分类研究中,向量空间模型具有表示形式简单的特点,但只能表示特征词的词频信息而忽视了特征词间的结构信息和语义语序信息,所以可能导致不同文档被表示为相同向量。针对这种问题,本文采用图结构模型表示文本,把文本表示成一个有向图(简称文本图),可有效解决结构化信息缺失的问题。本文将图核技术应用于文本分类,提出适用于文本图之间的相似度计算的图核算法--间隔通路核,然后利用支持向量机对文本进行分类。在文本集上的实验结果表明:与向量空间模型相比,间隔通路核相比于其他核函数的分类准确率更高,所以间隔通路核是一种很好的图结构相似性计算算法,能广泛应用于文本分类中。  相似文献   

19.
函数自动命名技术旨在为输入的源代码自动生成目标函数名,增强程序代码的可读性以及加速软件开发进程,是软件工程领域中一项重要的研究任务.现有基于机器学习的技术主要是通过序列模型对源代码进行编码,进而自动生成函数名,但存在长程依赖问题和代码结构编码问题.为了更好的提取程序中的结构信息和语义信息,本文提出了一个基于图卷积(Gr...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号