首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
网络谣言的广泛传播已经造成了很大的社会危害,因此早期谣言检测任务已成为重要的研究热点.现有谣言检测方法主要从文本内容、用户配置和传播结构中挖掘相关特征,但没有同时利用到文本全局语义关系和局部上下文语义关系.为了克服以上局限性,充分利用到谣言数据中的文本全局-局部上下文语义关系、文本语义内容特征和推文传播的结构特征,本文提出了一种基于Bert-GNNs异质图注意力网络的早期谣言检测算法(Bert-GNNs Heterogeneous Graph Attention Network,BGHGAN).该方法根据历史谣言集和用户特征构建一个推文-词-用户异质图,通过采用预训练语言模型Bert和图卷积神经网络(Graph Convolutional Network,GCN)结合的方法进行特征学习,以挖掘谣言的文本语义特征和文本之间的关系,并将异质图分解为推文-词子图和推文-用户子图,采用图注意力网络(Graph Attention network,GAT)的方式分别进行特征学习,从而更充分利用文本全局-局部上下文语义关系和传播图的全局结构关系以加强特征表达;最后,通过子图级注意力机制将不同模块的...  相似文献   

2.
针对空间目标图像的特点,该文提出一种基于局部不变特征的空间目标图像分类方法.该方法首先提取每幅图像的局部不变特征,利用混合高斯模型(GMM)建立全局的视觉模式,然后依据最大后验概率匹配局部特征和视觉模式来构造整个训练集图像的共现矩阵,采用概率潜在语义分析(PLSA)模型得到图像的潜在类别表示来实现图像的二次表示,最后利用SVM算法实现分类.实验结果验证了该方案的有效性.  相似文献   

3.
胡佳妮  郭军  邓伟洪  徐蔚然 《通信学报》2007,28(12):121-124
提出了一种基于短文本的独立语义特征抽取算法,旨在降低文本向量的稀疏性并提其高语义表示能力。该算法首先采用潜在语义分析降低文本的维数并去除噪声,然后运用独立成份分析方法在潜在语义特征中提取出最能表达语义且相互统计独立的特征。实验表明此算法优于潜在语义索引算法。  相似文献   

4.
基于图的Co-Training网页分类   总被引:1,自引:0,他引:1  
侯翠琴  焦李成 《电子学报》2009,37(10):2173-2180
 本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算法:基于图的Co-training网页分类算法(Graph based Co-training algorithm for web page classification),简称GCo-training,并从理论上证明了算法的有效性.GCo-training在Co-training算法框架下,迭代地学习一个基于由超链接信息构造的图的半监督分类器和一个基于文本特征的Bayes 分类器.基于图的半监督分类器只利用少量的标记数据,通过挖掘数据间大量的关系信息就可达到比较高的预测精度,可为Bayes分类器提供大量的标记信息;反过来学习大量标记信息后的Bayes分类器也可为基于图的分类器提供有效信息.迭代过程中,二者互相帮助,不断提高各自的性能,而后Bayes分类器可以用来预测大量未见数据的类别.在Web→KB数据集上的实验结果表明,与利用文本特征和锚文本特征的Co-training算法和基于EM的Bayes算法相比,GCo-training算法性能优越.  相似文献   

5.
一种基于多图的集成直推分类方法   总被引:1,自引:0,他引:1  
基于图的直推分类器依赖于图结构。高维数据通常具有冗余和噪声特征,在其上构造的图不能充分反映数据的分布信息,分类器性能因此下降。为此,该文提出一种多图构建方法并把它应用到直推分类中。该方法首先生成多个随机子空间并在每个子空间上进行半监督判别分析,其次在每个判别子空间上构造图并训练一个直推分类器,最后投票融合这些分类器为一个集成分类器。实验结果表明,对比其它直推分类器,该文的集成分类器具有分类正确率高、对参数鲁棒等特点。  相似文献   

6.
王强  关毅  王晓龙 《电子与信息学报》2007,29(12):2885-2890
本文提出了一种基于标题类别语义识别的文本分类算法。算法利用基于类别信息的特征选择策略构造分类的特征空间,通过识别文本标题中的特征词的类别语义来预测文本的候选类别,最后在候选类别空间中用分类器执行分类操作。实验表明该算法在有效降低分类候选数目的基础上可显著提高文本分类的精度,通过对类别空间表示效率指标的验证,进一步表明该算法有效地提高了文本表示空间的性能。  相似文献   

7.
基于KPCA和RBF网络的文本分类研究   总被引:2,自引:2,他引:0  
基于词空间的分类方法很难处理文本的高维特性和复杂相关性,为此文中提出了基于核的主成分分析和径向基神经网络的文本分类算法.首先利用核主成分分析选择合适的核函数从高维特征空间中提取文本向量的主成分,实现了文本输入空间的降维和语义特征空间的抽取,然后在语义特征空间中训练径向基神经网络分类器,并利用训练得到的分类器进行文本分类工作.实验结果表明:核主成分分析不仅实现了降维,而且能在大幅减减少径向基神经网络训练时间的基础上显著提高其分类精度.  相似文献   

8.
孙新  盖晨  申长虹  张颖捷 《电子学报》2021,49(9):1682-1690
现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短语向量构建模型,解决复杂短语的语义表示问题.然后,利用短语向量对每个候选短语计算主题权重,通过主题加权排序提高关键词抽取的效果.在公共数据集和学术论文数据上的实验表明,本文提出的方法能够有效提取与文本主题信息相关的关键短语,同时利用自编码器构造的短语向量可以更好地表示短语的语义信息.  相似文献   

9.
本文提出一种基于概念图和简单语义分析相结合的文本过滤技术.利用概念图知识表示方法定义文本中概念间的语义倾向关系,把文本过滤问题转换成基于概念图的语义匹配问题.在使用概念图匹配推理中,利用敏感词汇分类和词语的褒贬性,有效简化过滤的匹配处理.经实际应用表明,基于概念图的倾向性文本过滤方法可以有效的识别和过滤倾向性文本信息.  相似文献   

10.
韩微  乔玉龙 《信号处理》2021,37(6):1008-1016
动态纹理在空间和时间上表现出“外观”和“运动”属性,为了有效结合这两种属性进行动态纹理分析,本文提出一种基于时间—顶点谱图小波变换与边缘分布协方差模型的动态纹理分类方法。该方法将动态纹理看成时间—顶点图信号,利用时间—顶点谱图Meyer小波变换对动态纹理进行多尺度分解,再对每个子带应用边缘分布协方差模型,由此得到带内相关性的特征协方差矩阵作为动态纹理特征进行分类。由于时间—顶点图信号的表示可以有效描述动态纹理像素间的空间关系及其沿时间的变化,同时谱图小波变换继承了图表示和小波变换的优势,因此利用时间—顶点谱图小波分解与边缘分布协方差模型,可得到有效的动态纹理特征。在标准动态纹理数据集上的分类实验结果表明,本文方法具有良好的分类性能。   相似文献   

11.
介绍了中文文本分类系统的原理,在特征提取上采用了文档频率法(DF)与潜在语义分析法(K认)相结合的方法,先采用DF法过滤掉DF值低的词条,降低文本矩阵的稀疏性,然后使用LSA法进行词语间的语义分析,消除同义词和多义词的影响,提高文本分类的速度与精确度。实验结果表明使用此种降维方法取得了良好的效果。  相似文献   

12.
陈培新  郭武 《信号处理》2017,33(8):1090-1096
经典的概率主题模型通过词与词的共现挖掘文本的潜在主题信息,在文本聚类与分类任务上被广泛应用。近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流。本文通过卷积神经网络(Convolutional Neural Network,CNN)和概率主题模型在文本主题分类上的效果对比,展示了CNN在此任务上的优越性。在此基础上,本文利用CNN模型提取文本的特征向量并将其命名为卷积语义特征。为了更好地刻画文本的主题信息,本文在卷积语义特征上加入文本的潜在主题分布信息,从而得到一种更有效的文本特征表示。实验结果表明,相比于单独的概率主题模型或CNN模型,新的特征表示显著地提升了主题分类任务的F1值。   相似文献   

13.
With the rapid development of artificial intelligence technology, text categorization technology is becoming more and more mature. However, text categorization in real situations still faces various unconstrained conditions. English text is an important part of text information, it is also an important way for people to get information from abroad. How can everyone get the desired content from the massive data quickly and accurately, it has become a hot issue in current research. This paper improves the current text categorization algorithm based on English quality-related text categorization. The design and implementation of text categorization system are illustrated with an example of English quality-related text categorization system, complete the research work of text categorization algorithm. The core work of this paper is to mine, classify and analyze large amounts of data in English text by using the method of combining cyclic neural network with quality. Finally, the essential features of high quality English texts are obtained. Traditional English text categorization algorithm if the amount of training data is large, it is easy to show some defects such as unclear feature items. In view of these problems, in order to improve the accuracy and flexibility of English text categorization, this paper proposes a quality-related English text categorization method based on cyclic neural network. A mechanism combining attention is proposed to improve the problem of label disorder and make the structure of the model more flexible. The model proposed in this paper is compared and optimized. Experiments show that the accuracy of neural text classification based on quality classification can reach about 96%.  相似文献   

14.
有监督主题模型的SLDA-TC文本分类新方法   总被引:1,自引:0,他引:1       下载免费PDF全文
本文提出了一种有监督主题模型的SLDA-TC(Supervised LDA-Text Categorization)文本分类方法,引入主题-类别概率分布参数,识别主题-类别的语义信息;提出SLDA-TC-Gibbs主题采样新方法,对每个词的隐含主题采样,只从该词所在文档的同类其它文档中采样,并给出了理论推导;另外,其主题数只需略大于类别数.实验表明,对比LDA-TC(LDA-Text Categorization)和SVM算法,本方法能提高分类精度和时间性能.  相似文献   

15.
文本分类是信息检索和文本挖掘的关键技术之一。提出了一种基于支持向量数据描述(SVDD)的多类文本分类算法,用支持向量描述训练求得包围各类样本的最小超球体,并使得分类间隔最大化,在测试阶段,引入基于核空间k-近邻平均距离的判别准则,判断样本所属类别。实验结果表明,该方法具有很好的泛化能力和很好的时间性能。  相似文献   

16.
面向不良文本信息的中文网页分类方法   总被引:1,自引:0,他引:1  
结合Internet不良文本信息的特点,运用贝叶斯理论设计了一种面向该类信息的网页分类方法,该方法兼顾分类效率与分类精度,对特征项选取以及权重计算的方法进行了优化,降低了分类特征维数,简化了分类过程的处理.实验数据表明,该方法保持了良好的性能,提高了效率.  相似文献   

17.
在中文文本分类任务中,针对重要特征在中文文本中位置分布分散、稀疏的问题,以及不同文本特征对文本类别识别贡献不同的问题,该文提出一种基于语义理解的注意力神经网络、长短期记忆网络(LSTM)与卷积神经网络(CNN)的多元特征融合中文文本分类模型(3CLA)。模型首先通过文本预处理将中文文本分词、向量化。然后,通过嵌入层分别经过CNN通路、LSTM通路和注意力算法模型通路以提取不同层次、具有不同特点的文本特征。最终,文本特征经融合层融合后,由softmax分类器进行分类。基于中文语料进行了文本分类实验。实验结果表明,相较于CNN结构模型与LSTM结构模型,提出的算法模型对中文文本类别的识别能力最多提升约8%。  相似文献   

18.
目前大多数文本自动分类系统都采用向量空间模型(VSM)来表示文档.针对常规的VSM文档表示方法不能反映概念的问题,文章对VSM进行了改进.在VSM的基础上,选取在同一个窗口单元中出现的高频词,用Apriori算法从这些高频词中挖掘出最大频繁词共现集,以此对VSM进行扩展后用来表示文档.实验表明,与用VSM表示文档相比,该方法使文本自动分类系统的性能有了显著的提高.  相似文献   

19.
Focusing on the problem of natural image retrieval, based on latent semantic analysis (LSA) and support vector machine (SVM), a novel multi-instance learning (MIL) algorithm is proposed, where a bag corresponds to an image and an instance corresponds to the low-level visual features of a segmented region. Firstly, in order to transform every bag into a single sample, a collection of “visual-word” is generated by k-means clustering method to construct a projection space, then a nonlinear mapping is defined using these “visual-word” to embed each bag as a point in the projection space, thereby obtaining every bag's projection feature. Secondly, the matrix consisted of all the projection features of training bags is regarded as a term-document matrix, and LSA method is used to obtain the latent semantic feature of each bag. As a result, the MIL problem is converted into a standard single instance learning (SIL) problem that can be solved directly by SVM method. Experimental results on the COREL data sets show that the proposed method, named LSASVM-MIL, is robust, and its performance is superior to other key existing MIL algorithms.  相似文献   

20.
支持向量机方法在文本分类中的改进   总被引:1,自引:0,他引:1  
谭冠群  丁华福 《信息技术》2008,32(1):83-84,88
提出了一种应用于文本分类的KNN和SVM相结合的算法,将SVM近似看成每类只有一个代表点的1NN分类器,对于待识别样本,如果其离支持向量机的最优分界面较远,则用SVM分类;如果其离分界面较近,采用KNN对测试样本分类,将每个支持向量作为代表点,计算待识别样本和每个支持向量的距离对其作出判断.该算法综合了KNN和SVM在分类问题中的优势,既有效地降低了分类候选的数目,又提高了文本分类的精度.最后用实验验证了该算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号