首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
针对有特殊结构的文本,传统的文本分类算法已经不能满足需求,为此提出一种基于多示例学习框架的文本分类算法。将每个文本当作一个示例包,文本中的标题和正文视为该包的两个示例;利用基于一类分类的多类分类支持向量机算法,将包映射到高维特征空间中;引入高斯核函数训练分类器,完成对无标记文本的分类预测。实验结果表明,该算法相较于传统的机器学习分类算法具有更高的分类精度,为具有特殊文本结构的文本挖掘领域研究提供了新的角度。  相似文献   

2.
一种基于向量夹角的k近邻多标记文本分类算法   总被引:2,自引:1,他引:1  
广凯  潘金贵 《计算机科学》2008,35(4):205-206
在多标记学习中,一个示例可以有多个概念标记.学习系统的目标是通过对由多标记样本组成的训练集进行学习,以尽可能正确地预测未知样本所对应的概念标记集.k近邻算法已被应用到多标记学习中,该算法将测试示例转化为多维向量,根据其k个近邻样本的标记向量来确定该测试示例的标记向量.传统的k近邻算法是基于向量的空间距离来选取近邻,而在自然语言处理中,文本间的相似度常用文本向量的夹角来表示,所以本文将文本向量间的夹角关系作为选取k近邻的标准并结合k近邻算法提出了一种多标记文本学习算法.实验表明,该算法在文档分类的准确率上体现出较好的性能.  相似文献   

3.
一种基于跨领域典型相关性分析的迁移学习方法   总被引:4,自引:0,他引:4  
作为迁移学习的一个重要研究方向,基于特征映射的方法学习各领域特有特征与领域共享特征之间的相关性,通过一些相关特征减少领域之间的差异,已经获得了广泛的关注和研究。典型相关性分析是一种用来分析两组随机变量之间相关性的统计分析工具。将典型相关性分析引入迁移学习,结合基于特征映射迁移学习的思路,提出了一种跨领域典型相关性分析算法。该算法在保持各领域特有特征与领域共享特征相关性的基础上,通过选择合适的基向量组合训练分类器,使降维后的相关特征在领域间具有相似的判别性。在20Newsgroups 上864个分类问题以及多领域情感分析数据集上12个分类问题的实验结果表明,跨领域典型相关性分析算法可以有效地提高跨领域迁移分类准确率。  相似文献   

4.
在实际应用场景中,情感分析技术为自动判别文本情感极性提供了有效的决策及解决方案,但是文本情感分析技术依赖于大量的标定样本.为了减小对人工标注的依赖,有研究者提出了基于领域自适应的跨领域情感分析技术.该技术面向跨领域文本情感分析任务,将经由标定样本训练的源领域模型,迁移至无标定的目标领域.然而目前的领域自适应技术仅从单个角度进行迁移,即减小领域专有特征差异或提取领域不变特征.因此考虑到跨领域文本数据同时包含领域专有特征和领域不变特征的特点,提出了一种领域对齐对抗的无监督跨领域文本情感分析算法.该算法通过渐进式的迁移策略,逐层减小不同语义层的领域差异,并在高层语义子空间通过协同优化的领域自适应算法,实现跨领域文本数据的领域知识迁移.在2个公开跨领域文本情感数据集上的24组跨领域文本情感分类实验结果表明,与4类领域自适应算法中代表性的和当前表现最优的方法相比,领域对齐对抗的无监督跨领域文本情感分析算法在24组实验中取得了最高的平均分类准确率,同时结合迁移性能分析结果和特征分布可视化结果,证明该算法一定程度上提升了现有无监督跨领域文本情感分析算法的分类性能和迁移性能.  相似文献   

5.
在多标记学习的任务中,多标记学习的每个样本可被多个标签标记,比单标记学习的应用空间更广关注度更高,多标记学习可以利用关联性提高算法的性能。在多标记学习中,传统特征选择算法已不再适用,一方面,传统的特征选择算法可被用于单标记的评估标准。多标记学习使得多个标记被同时优化;而且在多标记学习中关联信息存在于不同标记间。因此,可设计一种能够处理多标记问题的特征选择算法,使标记之间的关联信息能够被提取和利用。通过设计最优的目标损失函数,提出了基于指数损失间隔的多标记特征选择算法。该算法可以通过样本相似性的方法,将特征空间和标记空间的信息融合在一起,独立于特定的分类算法或转换策略。优于其他特征选择算法的分类性能。在现实世界的数据集上验证了所提算法的正确性以及较好的性能。  相似文献   

6.
摘要:跨领域分类旨在利用已标记的源领域信息来为概率分布不同,未标记的目标领域训练一个精确的分类器。已有工作大多以文本主题为特征表现形式,并基于共享主题来建立领域间独有主题的映射关系,从而达到跨领域学习的目的。然而,现实中领域间的连接可以是多角度的,而这种基于单一共享主题的映射方式,存在语义表示不完备和偏差性等问题,从而影响跨领域分类精度。基于此,提出一种基于多桥映射的跨领域分类方法,通过提取多重的共享主题和领域独有主题,并以多重共享主题为桥梁来建立领域独有主题之间的多重映射关系,从而实现跨领域的分类。在20Newsgroups和Reuters-21578数据集上的实验结果表明,和同类算法相比,所提算法在分类精度上具有优越性。  相似文献   

7.
现有的多标记学习技术大多只考虑了相关性学习问题而忽略了数据因变换而引起的结构性质不一致问题,导致原始特征数据的结构性质因映射变换发生改变,从而影响了模型的分类性能。为了解决这一问题,提出了基于结构性质保持和相关性学习的多标记分类算法。首先,构造了线性映射函数以实现特征空间与标记空间的映射;然后借鉴图正则化思想,引入基于特征数据的结构性质保持策略以降低特征数据因线性变换引起的结构性质差异;最后,针对标记数据引入基于标记对的相关性学习策略进一步优化算法参数,以提高模型的分类性能。在不同规模的标准数据集上进行测试,结果表明所提算法与一些流行的多标记分类算法相比具有更优的分类性能,验证了所提算法的有效性。  相似文献   

8.
在多标记分类问题当中,多标记分类器的目的是为实例预测一个与其关联的标记集合。典型方法之一是将多标记分类问题转化为多个二类分类问题,这些二类分类器之间可以存在一定的关系。简单地考虑标记间依赖关系可以在一定程度上改善分类性能,但同时计算复杂度也是必须考虑的问题。该文提出了一种利用多标记间依赖关系的有序分类器集合算法,该算法通过启发式的搜索策略寻找分类器之间的某种次序,这种次序可以更好地反映标记间的依赖关系。在实验中,该文选取了来自不同领域的数据集和多个评价指标,实验结果表明该文所提出的算法比一般多标记分类算法具有更好的分类性能。  相似文献   

9.
邵忻 《计算机应用》2014,34(4):1169-1171
针对基于单一领域主动学习的图像分类方法不能利用不同领域图像共同特征导致标记效率低下的问题,提出一种基于跨领域主动学习的图像分类方法。由不同领域图像学习出含共同隐特征的子空间,综合考虑共同特征和领域相关特征,将数据实例引起的模型损失减少量分解到一个共同部分和领域相关部分,从而领域间的共同信息可以编码到模型损失减少的共同部分并用来进行查询。实验结果显示该方法相对于单一模型学习和混合模型学习方法可以减少将近30%的标记工作,并且可以获得更高的精度,表明该方法可以更高效地运用于各种图像分类任务。  相似文献   

10.
基于PLSA主题模型的多标记文本分类   总被引:1,自引:1,他引:0  
为解决多标记文本分类时文本标记关系不明确以及特征维数 过大的问题,提出了基于概率隐语义分析(Probabilistic latent semantic analysis,PL SA)模型的多标记假设重用文本分类算法。该方法首先将训练样本通过PLSA模型映射到隐语 义空间,以文本的主题分布表示一篇文本,在去噪的同时可以大大降低数据维度。在此基础 上利用多标记假设重用算法(Multi label algorithm of hypothesis reuse,MAHR)进行 分类,由于经过PLSA降维后的特征组本身就具有语义信息,因此算法能够精确地挖掘出多标 记之间的关系并用于训练基分类器,从而避免了人为输入标记关系的缺陷。实验验证了该方 法能够充分利用PLSA降维得到的语义信息来改善多标记文本分类的性能。  相似文献   

11.
唐诗淇  文益民  秦一休 《软件学报》2017,28(11):2940-2960
近年来,迁移学习得到越来越多的关注.现有的在线迁移学习算法一般从单个源领域迁移知识,然而,当源领域与目标领域相似度较低时,很难进行有效的迁移学习.基于此,提出了一种基于局部分类精度的多源在线迁移学习方法——LC-MSOTL.LC-MSOTL存储多个源领域分类器,计算新到样本与目标领域已有样本之间的距离以及各源领域分类器对其最近邻样本的分类精度,从源领域分类器中挑选局部精度最高的分类器与目标领域分类器加权组合,从而实现多个源领域知识到目标领域的迁移学习.在人工数据集和实际数据集上的实验结果表明,LC-MSOTL能够有效地从多个源领域实现选择性迁移,相对于单源在线迁移学习算法OTL,显示出了更高的分类准确率.  相似文献   

12.
迁移学习研究进展   总被引:30,自引:7,他引:23  
近年来,迁移学习已经引起了广泛的关注和研究.迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法.它放宽了传统机器学习中的两个基本假设:(1)用于学习的训练样本与新的测试样本满足独立同分布的条件;(2)必须有足够可利用的训练样本才能学习得到一个好的分类模型.目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题.对迁移学习算法的研究以及相关理论研究的进展进行了综述,并介绍了在该领域所做的研究工作,特别是利用生成模型在概念层面建立迁移学习模型.最后介绍了迁移学习在文本分类、协同过滤等方面的应用工作,并指出了迁移学习下一步可能的研究方向.  相似文献   

13.
一种面向多源领域的实例迁移学习   总被引:1,自引:0,他引:1  
在迁移学习最大的特点就是利用相关领域的知识来帮助完成目标领域中的学习任务,它能够有效地在相似的领域或任务之间进行信息的共享和迁移,使传统的从零开始的学习变成可积累的学习,具有成本低、效率高等优点.针对源领域数据和目标领域数据分布类似的情况,提出一种基于多源动态TrAdaBoost的实例迁移学习方法.该方法考虑多个源领域知识,使得目标任务的学习可以充分利用所有源领域信息,每次训练候选分类器时,所有源领域样本都参与学习,可以获得有利于目标任务学习的有用信息,从而避免负迁移的产生.理论分析验证了所提算法较单源迁移的优势,以及加入动态因子改善了源权重收敛导致的权重熵由源样本转移到目标样本的问题.实验结果验证了此算法在提高识别率方面的优势.  相似文献   

14.
周胜  刘三民 《计算机工程》2020,46(5):139-143,149
为解决数据流分类中的概念漂移和噪声问题,提出一种基于样本确定性的多源迁移学习方法。该方法存储多源领域上由训练得到的分类器,求出各源领域分类器对目标领域数据块中每个样本的类别后验概率和样本确定性值。在此基础上,将样本确定性值满足当前阈值限制的源领域分类器与目标领域分类器进行在线集成,从而将多个源领域的知识迁移到目标领域。实验结果表明,该方法能够有效消除噪声数据流给不确定分类器带来的不利影响,与基于准确率选择集成的多源迁移学习方法相比,具有更高的分类准确率和抗噪稳定性。  相似文献   

15.
Boosting for transfer learning from multiple data sources   总被引:2,自引:0,他引:2  
Transfer learning aims at adapting a classifier trained on one domain with adequate labeled samples to a new domain where samples are from a different distribution and have no class labels. In this paper, we explore the transfer learning problems with multiple data sources and present a novel boosting algorithm, SharedBoost. This novel algorithm is capable of applying for very high dimensional data such as in text mining where the feature dimension is beyond several ten thousands. The experimental results illustrate that the SharedBoost algorithm significantly outperforms the traditional methods which transfer knowledge with supervised learning techniques. Besides, SharedBoost also provides much better classification accuracy and more stable performance than some other typical transfer learning methods such as the structural correspondence learning (SCL) and the structural learning in the multiple sources transfer learning problems.  相似文献   

16.
Unsupervised Domain Adaptation (UDA) aims to use the source domain with large amounts of labeled data to help the learning of the target domain without any label information. In UDA, the source and target domains are usually assumed to have different data distributions but share the same class label space. Nevertheless, in real-world open learning scenarios, label spaces are highly likely to be different across domains. In extreme cases, the domains share no common classes, i.e., all classes in the target domain are new classes. In such a case, direct transferring the class-discriminative knowledge from the source domain may impair the performance in the target domain and lead to negative transfer. For this reason, this paper proposes unsupervised new-set domain adaptation with self-supervised knowledge (SUNDA) to transfer the sample contrastive knowledge from the source domain, and use self-supervised knowledge from the target domain to guide the knowledge transfer. Specifically, the initial features of the source and target domains are learned by self-supervised learning, and some network parameters are frozen to preserve target domain information. Sample contrastive knowledge from the source domain is then transferred to the target domain to assist the learning of class-discriminative features in the target domain. Moreover, graph-based self-supervised classification loss is adopted to handle the problem of target domain classification with no inter-domain common classes. SUNDA is evaluated on tasks of cross-domain transfer for handwritten digits without any common class and cross-race transfer for face data without any common class. The experiments show that SUNDA outperforms UDA, unsupervised clustering, and new class discovery methods in learning performance.  相似文献   

17.
李志恒 《计算机应用研究》2021,38(2):591-594,599
针对机器学习中训练样本和测试样本概率分布不一致的问题,提出了一种基于dropout正则化的半监督域自适应方法来实现将神经网络的特征表示从标签丰富的源域转移到无标签的目标域。此方法从半监督学习的角度出发,在源域数据中添加少量带标签的目标域数据,使得神经网络在学习到源域数据特征分布的同时也能学习到目标域数据的特征分布。由于有了先验知识的指导,即使没有丰富的标签信息,神经网络依然可以很好地拟合目标域数据。实验结果表明,此算法在几种典型的数字数据集SVHN、MNIST和USPS的域自适应任务上的性能优于现有的其他算法,并且在涵盖广泛自然类别的真实数据集CIFAR-10和STL-10的域自适应任务上有较好的鲁棒性。  相似文献   

18.
医学影像作为医疗数据的主要载体,在疾病预防、诊断和治疗中发挥着重要作用。医学图像分类是医学影像分析的重要组成部分。如何提高医学图像分类效率是一个持续的研究问题。随着计算机技术进步,医学图像分类方法已经从传统方法转到深度学习,再到目前热门的迁移学习。虽然迁移学习在医学图像分类中得到较广泛应用,但存在不少问题,本文对该领域的迁移学习应用情况进行综述,从中总结经验和发现问题,为未来研究提供线索。1)对基于迁移学习的医学图像分类研究的重要文献进行梳理、分析和总结,概括出3种迁移学习策略,即迁移模型的结构调整策略、参数调整策略和从迁移模型中提取特征的策略;2)从各文献研究设计的迁移学习过程中提炼共性,总结为5种迁移学习模式,即深度卷积神经网络(deep convolution neural network,DCNN)模式、混合模式、特征组合分类模式、多分类器融合模式和二次迁移模式。阐述了迁移学习策略和迁移学习模式之间的关系。这些迁移学习策略和模式有助于从更高的抽象层次展现迁移学习应用于医学图像分类领域的情况;3)阐述这些迁移学习策略和模式在医学图像分类中的具体应用,分析这些策略及模式的优点、局限性及适用场景;4)给出迁移学习在医学图像分类应用中存在的问题并展望未来研究方向。  相似文献   

19.
跨领域文本情感分类研究进展   总被引:1,自引:0,他引:1  
赵传君  王素格  李德玉 《软件学报》2020,31(6):1723-1746
作为社会媒体文本情感分析的重要研究课题之一,跨领域文本情感分类旨在利用源领域资源或模型迁移地服务于目标领域的文本情感分类任务,其可以有效缓解目标领域中带标签数据不足问题.本文从三个角度对跨领域文本情感分类方法行了归纳总结:(1)按照目标领域中是否有带标签数据,可分为直推式和归纳式情感迁移方法;(2)按照不同情感适应性策略,可分为实例迁移方法、特征迁移方法、模型迁移方法、基于词典的方法、联合情感主题方法以及图模型方法等;(3)按照可用源领域个数,可分为单源和多源跨领域文本情感分类方法.此外,论文还介绍了深度迁移学习方法及其在跨领域文本情感分类的最新应用成果.最后,论文围绕跨领域文本情感分类面临的关键技术问题,对可能的突破方向进行了展望.  相似文献   

20.
In machine learning research and application, multiclass classification algorithms reign supreme. Their fundamental property is the reliance on the availability of data from all known categories to induce effective classifiers. Unfortunately, data from so‐called real‐world domains sometimes do not satisfy this property, and researchers use methods such as sampling to make the data more conducive for classification. However, there are scenarios in which even such explicit methods to rectify distributions fail. In such cases, 1‐class classification algorithms become the practical alternative. Unfortunately, domain complexity severely impacts their ability to produce effective classifiers. The work in this article addresses this issue and develops a strategy that allows for 1‐class classification over complex domains. In particular, we introduce the notion of learning along the lines of underlying domain concepts; an important source of complexity in domains is the presence of subconcepts, and by learning over them explicitly rather than on the entire domain as a whole, we can produce powerful 1‐class classification systems. The level of knowledge regarding these subconcepts will naturally vary by domain, and thus, we develop 3 distinct methodologies that take the amount of domain knowledge available into account. We demonstrate these over 3 real‐world domains.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号