首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
林呈宇  王雷  薛聪 《计算机应用》2023,43(2):335-342
针对弱监督文本分类任务中存在的类别词表噪声和标签噪声问题,提出了一种标签语义增强的弱监督文本分类模型。首先,基于单词上下文语义表示对类别词表去噪,从而构建高度准确的类别词表;然后,构建基于MASK机制的词类别预测任务对预训练模型BERT进行微调,以学习单词与类别的关系;最后,利用引入标签语义的自训练模块来充分利用所有数据信息并减少标签噪声的影响,以实现词级到句子级语义的转换,从而准确预测文本序列类别。实验结果表明,与目前最先进的弱监督文本分类模型LOTClass相比,所提方法在THUCNews、AG News和IMDB公开数据集上,分类准确率分别提高了5.29、1.41和1.86个百分点。  相似文献   

2.
基于本体的文本分类方法   总被引:1,自引:0,他引:1  
文本分类是智能科学研究中的霞要问题,如何能使分类结果更精确一直是研究的重点.本体技术兴起之后,利用本体作为词典,从而在语义上进行扩展的方法使分类的精确度有丁改善.但是,本体自身的结构并没有得到应用,多类别多标签的分类也没有因此得到大幅度改进.作为领域内公认的概念体系,本体自身的结构也是一种非常好的分类标准,为多类别多标签的分类提供了很好的载体.针对多类别多标签分类问题,提出了以本体为类别指导,基于模糊数学规划思想的分类方法.将本体概念作为分类标准,将文本散列到相应的本体概念类别中,并给出其相关程度.实验验证了该方法能够做到更细致的分类结果,改善了多类别多标签分类的能力.此外,该方法还能够改善数据在语义Web网中的传输效果.  相似文献   

3.
由于遥感图像包含物体类别多样,单个语义类别标签无法全面地描述图像内容,而多标签图像分类任务更加具有挑战性.通过探索深度图卷积网络(GCN),解决了多标签遥感图像分类缺乏对标签语义信息相关性利用的问题,提出了一种新的基于图卷积的多标签遥感图像分类网络,它包含图像特征学习模块、基于图卷积网络的分类器学习模块和图像特征差异化模块三个部分.在公开多标签遥感数据集Planet和UCM上与相关模型进行对比,在多标签遥感图像分类任务上可以得到了较好的分类结果.该方法使用图卷积等模块将多标签图像分类方法应用到遥感领域,提高了模型分类能力,缩短了模型训练时间.  相似文献   

4.
问题分类是问答社区系统的关键技术,分析用户提出的自然语言问题,并返回一个确切而适当的问题类别.针对网络社区中问题分类标签众多(>1 000)、有一定层次且易受时间演化影响的问题,提出了针对两种不同流动粒度的问题分类算法,运用不同时刻的数据集层次集成学习方法提高了问题分类精度和效率.同时,针对单次分类标签过多引起的特征集...  相似文献   

5.
多标签分类主要解决实例数据对应多个标签问题,现有多标签方法大多利用所有特征组成的相同数据表示来区分所有标签,由于每个标签自身特点不同,统一的特征不能完全区分标签,给模型训练带来负面作用和时间成本增加,如何利用对每个标签而言最具有辨别力的特征来提高模型分类性能成为一种难题,此外现实中类不平衡问题同样会导致多标签学习模型的性能下降。基于此,提出一种类不平衡的公共和标签特定特征多标签分类方法。首先,找到种子实例的最近邻居,然后通过插值技术得到合成实例的特征来解决类不平衡问题;其次,为了找出对每个标签最具代表性的特征,引入l1,l2,1正则化约束系数矩阵提取标签的特定特征和公共特征;最后,使用标签相关性实现关联标签的模型输出相似,实例相关性保证关联特征共享对应标签分布信息提高分类性能。实验表明所提方法与其他多标签分类方法相比获得了更好的分类精度。  相似文献   

6.
针对现有技术难以并行实现舌象多标签的高效分类和识别,难以利用标签间的相关性进行综合分析等问题,提出了一种基于多任务卷积神经网络的舌象分类方法,构建了一种多任务联合学习模型,尝试实现传统中医舌诊中对舌色、苔色、裂纹和齿痕等多个标签的同时辨识。首先,在共享网络层对所有标签进行联合学习,从特征提取的角度自动挖掘和利用标签间的相关性;然后,在不同子网络层分别完成特定类别的学习任务,从而消除多标签分类中的歧义性;最后,训练多个Softmax分类器以实现对所有标签的并行预测。研究表明,所提方法能以端到端的方式同时提取舌象的多个特征并直接进行分类识别,在各分类评价指标上的最低值约为0.96,多任务的总体识别时间为34ms,因此该方法在精度和速度上均具有明显优势。  相似文献   

7.
零样本多标签图像分类是对含多个标签且测试类别标签在训练过程中没有相应训练样本的图像进行分类标注。已有的研究表明,多标签图像类别间存在相互关联,合理利用标签间相互关系是多标签图像分类技术的关键,如何实现已见类到未见类的模型迁移,并利用标签间相关性实现未见类的分类是零样本多标签分类需要解决的关键问题。针对这一挑战性的学习任务,提出一种深度示例差异化分类算法。首先利用深度嵌入网络实现图像视觉特征空间至标签语义特征空间的跨模态映射,然后在语义空间利用示例差异化算法实现多标签分类。通过在主流数据集Natural Scene和IAPRTC-12上与已有算法进行对比实验,验证了所提方法的先进性和有效性,同时验证了嵌入网络的先进性。  相似文献   

8.
张勇 《福建电脑》2007,(8):124-125
在本文中,我们通过对比现有的多标签分类和关联规则的分类,提出一种新的分类方法多类别多标签关联分类.与其他分类方法相比较.它有较强的竞争力并且是可伸缩的.  相似文献   

9.
现有的类属属性学习方法在提取类别标签的特征时,大多仅单一考虑标签间的相关性,忽略实例和实例间以及特征与特征间的相关性,可能会降低分类精度.为了解决此问题,文中设计多类别相关性结合的类属属性多标签学习算法,考虑标签相关性、特征相关性和实例相关性.利用标签之间的余弦相似度计算标签相关性,构建相似图矩阵计算特征相关性和实例相关性.文中算法紧凑地选择标签的类属属性,提高分类精度,有效解决多标签分类遇到的维度过大问题.  相似文献   

10.
针对多标签文本分类问题,提出基于频繁项集的多标签文本分类算法——MLFI。该算法利用FP-growth算法挖掘类别之间的频繁项集,同时为每个类计算类标准向量和相似度阈值,如果文本与类标准向量的相似度大于相应阈值则归到相应的类别,在分类结束后利用挖掘到的类别之间的关联规则对分类结果进行校验。实验结果表明,该算法有较高的分类性能。  相似文献   

11.
近年来,标点符号作为篇章的重要部分逐渐引起研究者的关注。然而,针对汉语逗号的研究才刚刚展开,采用的方法也大多都是在句法分析的基础上,尚不存在利用汉语句子的表层信息开展逗号自动分类的研究。提出了一种基于汉语句子的分词与词性标注信息做逗号自动分类的方法,并采用了两种有监督的机器学习分类器,即最大熵分类器和CRF分类器,来完成逗号的自动分类。在CTB 6.0语料上的实验表明,CRF的总体结果比最大熵的要好,而这两种分类器的分类精度都非常接近基于句法分析方法的分类精度。由此说明,基于词与词性做逗号分类的方法是可行的。  相似文献   

12.
针对标签信息不完整的多标签分类问题,一种新的多标签算法MCWD被提出。它通过有效地恢复训练数据中缺失的标签信息,能够产生更好的分类结果。在训练阶段,MCWD通过迭代更新每个训练实例的权重以及利用两两标签之间的相关性来恢复训练数据中缺失的标签信息;在标签恢复完毕后,利用新得到的训练集来训练分类模型;用此模型对测试集进行预测。实验结果表明,该算法在14个多标签数据集上具有一定的优势。  相似文献   

13.
In this article, we present a desktop application for the analysis, reference data generation, registration, and supervised spatial-spectral classification of hyperspectral remote-sensing images through a simple and intuitive interface. Regarding the classification ability, the different classification schemes are implemented by using a chain structure as a base. It consists of five configurable stages that must be executed in a fixed order: preprocessing, spatial processing, pixel-wise classification, combination, and post-processing. The modular implementation makes its extension easy by adding new algorithms for each stage or new classification chains. The tool has been designed as a platform that is open to the incorporation of algorithms by the users interested in comparing classification schemes. As an example of use, a classification scheme based on the Quick Shift (QS) algorithm for segmentation and on Extreme Learning Machines (ELMs) or Support Vector Machines (SVMs) for classification is also proposed. The application is license-free, runs on the Linux operating system, and was developed in C language using the GTK library, as well as other free libraries to build the graphical user interfaces (GUIs).  相似文献   

14.
Many real‐world problems require multilabel classification, in which each training instance is associated with a set of labels. There are many existing learning algorithms for multilabel classification; however, these algorithms assume implicit negativity, where missing labels in the training data are automatically assumed to be negative. Additionally, many of the existing algorithms do not handle incremental learning in which new labels could be encountered later in the learning process. A novel multilabel adaptation of the backpropagation algorithm is proposed that does not assume implicit negativity. In addition, this algorithm can, using a naïve Bayesian approach, infer missing labels in the training data. This algorithm can also be trained incrementally as it dynamically considers new labels. This solution is compared with existing multilabel algorithms using data sets from multiple domains, and the performance is measured with standard multilabel evaluation metrics. It is shown that our algorithm improves classification performance for all metrics by an overall average of 7.4% when at least 40% of the labels are missing from the training data and improves by 18.4% when at least 90% of the labels are missing.  相似文献   

15.
针对航空线束自动布线过程中导线切断标识图像漏识别及误识别问题,提出一种基于多特征及最小重构误差标签传递的加权K近邻(Minimum Reconstruction Error Propagation K-nearest Neighbor,MREP-KNN)半监督切断标识图像分类方法.利用改进OTSU阈值分割方法分割出前景目标,提取前景目标旋转不变模式LBP纹理特征及几何特征作为目标特征向量,将目标特征向量输入训练好的MREP-KNN分类模型进行分类.对比实验结果表明,MREP-KNN能够在已知标签训练样本较小的情况下,利用最小重构误差将已知样本标签传递到未知样本,扩大训练样本,最后达到更好的分类效果.在标签数为12时,分类正确率达93.69%.  相似文献   

16.
J. Li  X. Tang  J. Liu  J. Huang  Y. Wang 《Pattern recognition》2008,41(6):1975-1984
Various microarray experiments are now done in many laboratories, resulting in the rapid accumulation of microarray data in public repositories. One of the major challenges of analyzing microarray data is how to extract and select efficient features from it for accurate cancer classification. Here we introduce a new feature extraction and selection method based on information gene pairs that have significant change in different tissue samples. Experimental results on five public microarray data sets demonstrate that the feature subset selected by the proposed method performs well and achieves higher classification accuracy on several classifiers. We perform extensive experimental comparison of the features selected by the proposed method and features selected by other methods using different evaluation methods and classifiers. The results confirm that the proposed method performs as well as other methods on acute lymphoblastic-acute myeloid leukemia, adenocarcinoma and breast cancer data sets using a fewer information genes and leads to significant improvement of classification accuracy on colon and diffuse large B cell lymphoma cancer data sets.  相似文献   

17.
一种结合SVM学习的产生式依存分析方法   总被引:1,自引:0,他引:1  
本文提出了一种结合SVM学习和产生式模型的依存分析方法。该方法用产生式模型的分析错误对SVM分类器进行训练。为进一步提高分析精度,采用扩大寻优范围的动态规划算法对产生式模型的分析结果进行错误估计,同时引入范围参数,使得寻优范围可以根据实际情况进行调整。本方法在不牺牲分类性能的前提下,有效减少了训练SVM分类器所依赖的支撑向量数。在对哈工大中文树库语料上的对比测试结果表明,该方法的依存分析精度达到86.4%,具有很强的依存分析能力。  相似文献   

18.

We examine in this work the following graph theory problem that arises in neural computations that involve the learning of boolean expressions by studying the asymptotic connectivity properties of $G_{n\comma 1/\lpar kn\rpar ^{1/2}}$ random graphs, where k is a fixed positive integer. For an undirected graph $G = \lpar V\comma \; E\rpar $ let $N\lpar X\comma \; Y\rpar = \lcub v \in V - \lpar X \cup Y\rpar \!\mid$ $ \exists x \in X\ \hbox{with}\ \lpar v\comma \; x\rpar \in E\rcub $ . For fixed k construct an undirected graph $G = \lpar V\comma \; E\rpar $ such that for all disjoint sets $A\comma \; B \subseteq V$ such that $\vert A \vert = \vert B \vert = k$ , and $C = N\lpar A\comma \; B\rpar \cap N\lpar B\comma \; A\rpar $ , set C is such that $\vert C \vert$ is either exactly k or as close to k as possible. Asymptotic results for large values of k are also presented.  相似文献   

19.
文本情感分析是自然语言处理的热点问题之一,而词汇是情感分析的基础。汉字通过声音和形状表达意义,该文综合考虑词汇中每个字的部首和音位等信息,构建了一个情感词汇分类模型。在模型中,将词汇的字、部首和音位三种信息向量化,与原始词汇向量融合,生成新的情感词汇表示,最后采用前馈神经网络和卷积神经网络对情感词汇的极性进行分类。实验结果表明,三种细粒度特征都能有效地提高情感词汇的分类效果,并且该文在COAE评测的语料上验证了模型的有效性。  相似文献   

20.
基于BP神经网络的肿瘤特征基因选取   总被引:2,自引:0,他引:2  
该文提出基于BP神经网络的灵敏度分析方法,并用于选取肿瘤特征基因。以结肠癌基因表达谱为例,首先定义基因对BP神经网络模型输出函数的灵敏度,递归去除灵敏度较低的若干基因,生成一组嵌套的候选特征基因子集。然后以支持向量机为分类器,检验候选特征基因子集对样本分类的贡献,选取错分率最低的候选特征基因子集为结肠癌特征基因子集。通过实验对比,该特征基因子集的分类结果优于文献给出的其他特征基因子集,表明了该方法的可行性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号