首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
传统的跨领域分类学习一般考虑均衡的单一源域到单一目标域的学习,但在现实世界中数据往往是不平衡的.当用于解决不平衡分类问题时,由于分类器的偏向性,其分类精度、抗噪性能往往有不同程度的下降.为了克服域间不平衡性,提出了一种不平衡多源跨领域分类算法(imbalance multisource classfication on cross-domain learning,IMCCL),该算法依据被众多实验证明有效的"逻辑回归模型"与"后验概率最大法则"构建多个训练域分类器并综合指导目标域的数据分类.为了充分高效利用大样本的源域数据,满足大样本的快速运算,在结合CDdual算法的基础上,提出了IMCCL的快速算法(IMCCL-CDdual).将其应用到文本数据分类与图像识别分类的实验结果表明:该算法具有较高的识别率、快速的识别速度和抗干扰性和领域自适应性.  相似文献   

2.
基于边际Fisher准则和迁移学习的小样本集分类器设计算法   总被引:1,自引:0,他引:1  
如何利用大量已有的同构标记数据(源域)设计小样本训练数据(目标域)的分类器是一个具有很强应用意义的研究问题. 由于不同域的数据特征分布有差异,直接使用源域数据对目标域样本进行分类的效果并不理想. 针对上述问题,本文提出了一种基于迁移学习的分类器设计算法. 首先,本文利用内积度量的边际Fisher准则对源域进行特征映射,提高源域中类内紧凑性和类间区分性. 其次,为了筛选合理的训练样本对,本文提出一种去除边界奇异点的算法来选择源域密集区域样本点,与目标域中的标记样本点组成训练样本对. 在核化空间上,本文学习了目标域特征到源域特征的非线性转换,将目标域映射到源域. 最后,利用邻近算法(k-nearest neighbor,kNN)分类器对映射后的目标域样本进行分类. 本文不仅改进了边际Fisher准则方法,并且将基于自适应样本对 筛选的迁移学习应用到小样本数据的分类器设计中,提高域间适应性. 在通用数据集上的实验结果表明,本文提出的方法能够有效提高小样本训练域的分类器性能.  相似文献   

3.
许敏  王士同  顾鑫  俞林 《控制与决策》2013,28(1):125-130
同一应用领域不同时间、地点或设备,采集的样本数据可能存在扰动、噪音或缺失,如何对样本数据集进行有效的预处理是其进一步应用的前提.针对上述问题,提出一种新的基于压缩集密度估计(RSDE)算法的领域自适应概率密度估计方法 A-RSDE,通过学习源域(训练域)知识,使目标域(测试域)概率密度估计更接近真实概率密度分布,并用基于近似最小包含球的核心集快速算法求解 A-RSDE,将其应用于大数据集密度估计. Benchmark 和 UCI 数据集上的实验表明,该算法具有较好的性能.  相似文献   

4.
深度学习算法的有效性依赖于大量的带有标签的数据,迁移学习的目的是利用已知标签的数据集(源域)来对未知标签的数据集(目标域)进行分类,因此深度迁移学习的研究成为了热门。针对训练数据标签不足的问题,提出了一种基于多尺度特征融合的领域对抗网络(Multi-scale domain adversarial network, MSDAN)模型,该方法利用生成对抗网络以及多尺度特征融合的思想,得到了源域数据和目标域数据在高维特征空间中的特征表示,该特征表示提取到了源域数据和目标域数据的公共几何特征和公共语义特征。将源域数据的特征表示和源域标签输入到分类器中进行分类,最终在目标域数据集的测试上得到了较为先进的效果。  相似文献   

5.
针对目标域训练样本数量较少无法建立优质分类模型的问题,提出一种在迁移框架下基于集成bagging算法的跨领域分类方法。引入源域的数据并对其进行筛选,对混合数据集进行学习,建立基于集成bagging算法的分类模型,投票得出预测结果。仿真对比结果表明,采用基于贝叶斯个体分类器的集成bagging算法能够优化源域的迁移,提升目标域的分类准确率及泛化性能。分析源域的噪音数据数量,其结果表明,该算法可以部分规避负迁移。  相似文献   

6.
唐诗淇  文益民  秦一休 《软件学报》2017,28(11):2940-2960
近年来,迁移学习得到越来越多的关注.现有的在线迁移学习算法一般从单个源领域迁移知识,然而,当源领域与目标领域相似度较低时,很难进行有效的迁移学习.基于此,提出了一种基于局部分类精度的多源在线迁移学习方法——LC-MSOTL.LC-MSOTL存储多个源领域分类器,计算新到样本与目标领域已有样本之间的距离以及各源领域分类器对其最近邻样本的分类精度,从源领域分类器中挑选局部精度最高的分类器与目标领域分类器加权组合,从而实现多个源领域知识到目标领域的迁移学习.在人工数据集和实际数据集上的实验结果表明,LC-MSOTL能够有效地从多个源领域实现选择性迁移,相对于单源在线迁移学习算法OTL,显示出了更高的分类准确率.  相似文献   

7.
最大均值差异仅用于反映样本空间总体的分布信息和全局结构信息,忽略了单个样本对全局度量贡献的差异性。为此,提出一种最大分布加权均值差异(MDWMD)度量方法,采用白化余弦相似性度量为源域和目标域的所有样本设计相应的分布权重,使得每个样本的分布差异信息在全局度量中均得以体现。进一步,在MDWMD基础上,结合联合分布调整思想,提出一种领域适应学习算法:基于最大分布加权均值嵌入的联合分布调整,同时对源域和目标域中的数据进行边缘概率分布调整和条件分布调整。实验结果表明,与现有典型的迁移学习和无迁移学习算法相比,所提算法在不同类型跨领域图片数据集上的分类精度较高。  相似文献   

8.
现有的跨领域情感分类方法大多只利用了单个源领域到目标域的迁移特征,没有充分考虑目标域实例与不同源域之间的联系。针对此问题,本文提出一种无监督的多源跨领域情感分类模型。首先利用单个源域到目标域的迁移特征训练基分类器,并对不同的基分类器加权;然后将不同基分类器对目标域实例预测的集成一致性作为目标函数,优化该目标函数,得到不同基分类器的权重;最后利用加权后的基分类器得到目标域的情感分类结果。该模型在Amazon数据集上进行了多源域情感迁移实验,取得了较好的实验结果,相对其他基线模型,在4组实验中平均提升了0.75%。  相似文献   

9.
针对小数据集条件下的贝叶斯网络(Bayesian network,BN)参数估计困难问题,提出了一种基于变权重迁移学习(DWTL)的BN参数学习算法。首先,利用MAP和MLE方法学习得到目标域初始参数和各源域参数;然后根据不同源域数据样本贡献的不同计算源权重因子;接着基于目标域样本统计量与小数据集样本阈值的关系设计了目标域初始参数和源域参数的平衡系数;最后,基于上述参数、源权重因子和平衡系数计算得到新的目标参数。在实验研究中,通过对经典BN模型的参数学习问题验证了DWTL算法的有效性;针对小数据集下的轴承故障诊断问题,相较于传统迁移学习(LP)算法,DWTL算法学习精度提高了10%。实验结果表明:所提出的算法能够较好地解决样本数据集在相对稀缺条件下的目标参数建模问题。  相似文献   

10.
任俊  胡晓峰  李宁 《计算机科学》2018,45(1):280-284, 312
为了解决大数据时代下小样本数据预测精度不高的问题,提出一种基于堆栈降噪自编码(SDA)与支持向量回归机(SVR)的混合模型。该方法采用源域大样本数据对堆栈降噪自编码和支持向量回归机混合模型进行迁移预训练,再利用目标域小样本数据微调混合模型。堆栈降噪自编码器具有良好的通用深层特征自主抽取能力,能够发掘源领域与目标领域相似任务间的共有特征知识,该知识能够辅助支持向量回归机在高维噪声小样本数据集上的预测。在多种数据集上的实验结果证明了该方法的有效性。  相似文献   

11.
多任务学习通过寻找并共享不同任务域之间的共性特征来完成学习,利用知识迁移加速不同任务域的学习为每个任务域构建一个分类器。提出了一种基于罗杰斯特回归模型的多任务学习方法MTC-LR(Multi-task Coupled Logistic Regression)。“罗杰斯特回归模型”已经被成功应用于单任务分类器上,该模型被众多实验证明是有效的,正是这种方法给人们带来了启示。从理论上证明了通过构造多任务分类器的“开销函数”和“差异性度量函数”,MTC-LR算法可以提高多任务分类器的各自分类精度。相比传统的基于SVM的多任务学习方法,MTC-LR并不依赖于核方法而是通过共轭梯度下降法寻找各个分类器的最优参数。同时MTC-LR与采用“罗杰斯特回归模型”的快速算法CDdual更容易结合,可扩展至大样本的多任务分类学习。正是基于上述发现,为了充分高效利用大样本的多任务域数据,满足大样本的快速运算,在MTC-LR算法的基础上,结合最新的CDdual(The Dual Coordinate Descent Method)算法,提出了MTC-LR的快速算法MTC-LR-CDdual,并对该算法进行了相关的理论分析。将该算法在人工数据集和真实数据集上进行了验证,实验结果表明该算法有着较高的识别率、快速的识别速度和较好的鲁棒性。  相似文献   

12.
针对传统分类器的泛化性能差、可解释性及学习效率低等问题, 提出0阶TSK-FC模糊分类器.为了将该分类器 应用到大规模数据的分类中, 提出增量式0阶TSK-IFC模糊分类器, 采用增量式模糊聚类算 法(IFCM($c+p$))训练模糊规则参数并通过适当的矩阵变换提升参数学习效率.仿真实验表明, 与FCPM-IRLS模糊分类器、径向基函数神经网 络相比, 所提出的模糊分类器在不同规模数据集中均能保持很好的性能, 且TSK-IFC模糊分类器在大规模数据分类中尤为突出.  相似文献   

13.
孪生支持向量机(TWSVM)的研究是近来机器学习领域的一个热点。TWSVM具有分类精度高、训练速度快等优点,但训练时没有充分利用样本的统计信息。作为TWSVM的改进算法,基于马氏距离的孪生支持向量机(TMSVM)在分类过程中考虑了各类样本的协方差信息,在许多实际问题中有着很好的应用效果。然而TMSVM的训练速度有待提高,并且仅适用于二分类问题。针对这两个问题,将最小二乘思想引入TMSVM,用等式约束取代TMSVM中的不等式约束,将二次规划问题的求解简化为求解两个线性方程组,得到基于马氏距离的最小二乘孪生支持向量机(LSTMSVM),并结合有向无环图策略(DAG)设计出基于马氏距离的最小二乘孪生多分类支持向量机。为了减少DAG结构的误差累积,构造了基于马氏距离的类间可分性度量。人工数据集和UCI数据集上的实验均表明,所提算法不仅有效,而且相对于传统多分类SVM,其分类性能有明显提高。  相似文献   

14.
监督学习情况下,经常遇到样例的维数远远大于样本个数的学习情况。此时,样例中存在许多与样例类标签无关的特征,研究如何同时实现稀疏特征选择并具有更好的分类性能的算法具有优势。提出了基于权核逻辑斯蒂非线性回归模型的分类和特征选择算法。权对角矩阵的对角元素在0到1之间取值,对角元素的取值作为学习参数由最优化过程确定,讨论了提出的快速轮转优化算法。提出的算法在十个实际数据集上进行了测试,实验结果显示,提出的分类算法与L1,L2,Lp正则化逻辑斯蒂模型分类算法比较具有优势。  相似文献   

15.
运动想象脑电信号采集成本高且个体差异大,跨个体域构建脑电信号模式识别模型属于典型的小样本跨域学习任务。针对该任务,提出了一种运动想象脑电信号的跨域特征学习方法。该方法首先选择最优度量方法对齐协方差并提取共同空间模式特征;其次,在该特征基础上采用领域自适应方法学习目标域的最优跨域特征。为验证所提方法的可行性与有效性,采用经典模型识别跨域特征,在两个公开的数据集上进行对比实验。实验结果表明,通过所提方法学习到的跨域特征,在运动想象模式识别中,明显优于现有方法学习到的特征。此外,还详细对比了跨域特征学习方法的各项参数设置、性能及效率。  相似文献   

16.
The challenges of the classification for the large-scale and high-dimensional datasets are: (1) It requires huge computational burden in the training phase and in the classification phase; (2) it needs large storage requirement to save many training data; and (3) it is difficult to determine decision rules in the high-dimensional data. Nonlinear support vector machine (SVM) is a popular classifier, and it performs well on a high-dimensional dataset. However, it easily leads overfitting problem especially when the data are not evenly distributed. Recently, profile support vector machine (PSVM) is proposed to solve this problem. Because local learning is superior to global learning, multiple linear SVM models are trained to get similar performance to a nonlinear SVM model. However, it is inefficient in the training phase. In this paper, we proposed a fast classification strategy for PSVM to speed up the training time and the classification time. We first choose border samples near the decision boundary from training samples. Then, the reduced training samples are clustered to several local subsets through MagKmeans algorithm. In the paper, we proposed a fast search method to find the optimal solution for MagKmeans algorithm. Each cluster is used to learn multiple linear SVM models. Both artificial datasets and real datasets are used to evaluate the performance of the proposed method. In the experimental result, the proposed method prevents overfitting and underfitting problems. Moreover, the proposed strategy is effective and efficient.  相似文献   

17.
Due to its wide applicability, semi-supervised learning is an attractive method for using unlabeled data in classification. In this work, we present a semi-supervised support vector classifier that is designed using quasi-Newton method for nonsmooth convex functions. The proposed algorithm is suitable in dealing with very large number of examples and features. Numerical experiments on various benchmark datasets showed that the proposed algorithm is fast and gives improved generalization performance over the existing methods. Further, a non-linear semi-supervised SVM has been proposed based on a multiple label switching scheme. This non-linear semi-supervised SVM is found to converge faster and it is found to improve generalization performance on several benchmark datasets.  相似文献   

18.
摘要:跨领域分类旨在利用已标记的源领域信息来为概率分布不同,未标记的目标领域训练一个精确的分类器。已有工作大多以文本主题为特征表现形式,并基于共享主题来建立领域间独有主题的映射关系,从而达到跨领域学习的目的。然而,现实中领域间的连接可以是多角度的,而这种基于单一共享主题的映射方式,存在语义表示不完备和偏差性等问题,从而影响跨领域分类精度。基于此,提出一种基于多桥映射的跨领域分类方法,通过提取多重的共享主题和领域独有主题,并以多重共享主题为桥梁来建立领域独有主题之间的多重映射关系,从而实现跨领域的分类。在20Newsgroups和Reuters-21578数据集上的实验结果表明,和同类算法相比,所提算法在分类精度上具有优越性。  相似文献   

19.
陈代丽  许国良 《计算机应用》2022,42(5):1391-1397
针对行人重识别任务跨域迁移时性能严重衰退的问题,提出了一种基于注意力机制学习域内变化的跨域行人重识别方法。首先,以ResNet50为基础架构并对其进行调整使其适合行人重识别任务,并引入实例-批归一化网络(IBN-Net)以提高模型的泛化能力,同时增加区域注意力分支以提取更具鉴别性的行人特征。对于源域的训练,将其作为分类任务,使用交叉熵损失进行源域的有监督学习,同时引入三元组损失来挖掘源域样本的细节,从而提高源域的分类性能。对于目标域的训练,通过学习域内变化来适应源域和目标域间的数据分布差异。在测试阶段,以ResNet50 pool-5层的输出作为图像特征,并计算查询图像与候选图像间的欧氏距离来度量两者的相似度。在两个大规模公共数据集Market-1501和DukeMTMC-reID上进行实验,所提方法的Rank-1准确率分别达到80.1%和67.7%,平均精度均值(mAP)分别为49.5%和44.2%。实验结果表明,所提方法在提高模型泛化能力方面性能较优。  相似文献   

20.
跨领域情感分类任务旨在利用已知情感标签的源域数据对缺乏标记数据的目标域进行情感倾向性分析.文中提出基于Wasserstein距离的分层注意力模型,结合Attention机制,采用分层模型进行特征提取,将Wasserstein距离作为域差异度量方式,通过对抗式训练自动捕获领域共享特征.进一步构造辅助任务捕获与共享特征共现的领域独有特征,结合两种特征表示完成跨域情感分类任务.在亚马逊评论等数据集上的实验表明,文中模型仅利用领域共享特征就达到较高的正确率,在不同的跨领域对之间具有较好的稳定性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号