共查询到20条相似文献,搜索用时 62 毫秒
1.
2.
近年来,深度学习在诸多任务上展现了优异的性能,其一般基于海量数据并采用有监督的学习方式,依赖于完整的数据标签信息.然而在现实应用场景中,收集大量标签往往成本高昂.因此,如何利用未经充分标注的数据进行学习成为了当下的主要挑战.二分类问题中的从正例和无标签(Positive-Unlabeled,PU)样本数据进行学习,简称PU学习,即为其一.当前主流的PU学习算法需要准确无误的类别先验知识,但实际上类别先验通常难以获得,需要估计.已有的类别先验估计算法则主要面向传统的机器学习分类器进行设计,无法直接运用在大规模数据集上,因而不利于发挥深度学习在大规模数据集上的优势.为克服以上问题,本文提出了一个基于无监督混合模型的迭代式深度PU学习与类别先验估计框架.它利用了深度神经网络对正例和负例给出的预测分数具有不同的分布这一特性,使用双高斯成分的混合模型近似拟合预测分数的混合分布.其中,各个高斯分量分别代表了正类和负类的条件概率分布,混合权重系数代表了类别先验.结合半监督学习中的平均教师和温度锐化技术,所提框架在类别先验未知以及数据缺失负例监督的条件下,估计类别先验的同时进行PU数据上的深度学习,二... 相似文献
3.
情感分析是自然语言处理领域的重要研究问题。现有方法往往难以克服样本偏置与领域依赖问题,严重制约了情感分析的发展和应用。为此,该文提出了一种基于深度表示学习和高斯过程知识迁移学习的情感分析方法。该方法首先利用深度神经网络获得文本样本的分布式表示,而后基于深度高斯过程,从辅助数据中迁移与测试集数据分布相符的高质量样例扩充训练数据集用于分类器训练,以此提高文本情感分类系统性能。在COAE2014文本情感分类数据集上进行的实验结果显示,该文提出的方法可以有效提高文本情感分类性能,同时可以有效缓解训练数据的样本偏置以及领域依赖问题的影响。 相似文献
4.
时间序列数据在测量过程中通常受到事物内在可变性以及外界干扰等因素的影响,针对各个时间点上数据受影响程度不同的情况,提出一种基于高斯过程预估模型的时间序列数据离群点检测方法。将监测数据分解为标准值和偏差项两个部分,除了对理想情况下的标准值建模,还再次使用高斯过程实现对异方差偏差项的有效描述,通过变分推断解决引入偏差项后的后验概率求解问题,将后验分布中设定的容差区间用于离群点判定。使用雅虎公司公开的网络流量时序数据进行验证,模型输出的容差区间在不同时间点上的变化趋势与标注的正常数据偏差情况相符,并在对比实验中异常检测性能指标F1-score优于自回归积分滑动平均模型、一类支持向量机以及基于密度并伴随噪声的空间聚类算法。实验结果表明,该模型能够有效描述各个时间点上正常数据的分布情况,取得误报率和召回率两方面的综合权衡,而且可以避免模型参数设置不当导致的性能问题。 相似文献
5.
提出了一种基于生成式对抗网络(GAN)和自注意力机制(self-attention mechanism)的单目视觉里程计方法,命名为SAGANVO(SAGAN visual odometry).该方法将生成式对抗网络学习框架应用于深度估计和视觉里程计任务中,通过GAN生成逼真的目标帧来准确求解出场景的深度图和6自由度位姿.与此同时,为了提高深度网络对场景细节、边缘轮廓的学习能力,将自注意力机制结合到网络模型中.最后,在公开数据集KITTI上展现了所提出的模型和方法的高质量结果,并与现有方法进行了对比,证明了SAGANVO在深度估计和位姿估计中的性能优于现有的主流方法. 相似文献
6.
实际的分类数据往往是分布不均衡的.传统的分类器大都会倾向多数类而忽略少数类,导致分类性能恶化.针对该问题提出一种基于变分贝叶斯推断最优高斯混合模型(varition Bayesian-optimized optimal Gaussian mixture model, VBoGMM)的自适应不均衡数据综合采样法. VBoGMM可自动衰减到真实的高斯成分数,实现任意数据的最优分布估计;进而基于所获得的分布特性对少数类样本进行自适应综合过采样,并采用Tomek-link对准则对采样数据进行清洗以获得相对均衡的数据集用于后续的分类模型学习.在多个公共不均衡数据集上进行大量的验证和对比实验,结果表明:所提方法能在实现样本均衡化的同时,维持多数类与少数类样本空间分布特性,因而能有效提升传统分类模型在不均衡数据集上的分类性能. 相似文献
8.
9.
场景的深度估计问题是计算机视觉领域中的经典问题之一,也是3维重建和图像合成等应用中的一个重要环节。基于深度学习的单目深度估计技术高速发展,各种网络结构相继提出。本文对基于深度学习的单目深度估计技术最新进展进行了综述,回顾了基于监督学习和基于无监督学习方法的发展历程。重点关注单目深度估计的优化思路及其在深度学习网络结构中的表现,将监督学习方法分为多尺度特征融合的方法、结合条件随机场(conditional random field,CRF)的方法、基于序数关系的方法、结合多元图像信息的方法和其他方法等5类;将无监督学习方法分为基于立体视觉的方法、基于运动恢复结构(structure from motion,SfM)的方法、结合对抗性网络的方法、基于序数关系的方法和结合不确定性的方法等5类。此外,还介绍了单目深度估计任务中常用的数据集和评价指标,并对目前基于深度学习的单目深度估计技术在精确度、泛化性、应用场景和无监督网络中不确定性研究等方面的现状和面临的挑战进行了讨论,为相关领域的研究人员提供一个比较全面的参考。 相似文献
10.
11.
针对线性回归、SVR以及大部分多变量回归树等回归模型不能直接利用分类型属性进行回归分析的问题,提出了一种可联合多种类型属性的决策树结点划分方法.该方法通过定义样本集合在分类型属性上的中心以及样本到中心的距离,使得分类型属性也可以像数值型属性一样参与样本的聚类过程,从而形成样本集的划分.之后,文中又为由该方法产生的决策树... 相似文献
12.
针对现有去雾算法在估计大气光向量时,所采用的方法包含的大气光候选点数量较少,导致估计结果在统计意义上误差较大这一问题,提出了基于高斯分布的大气光估计算法。该算法首先使用阈值划分的方式选取候选点以增加初始样本点数量;然后引入聚类算法对原算法所得光源点簇进行合并以提高单个点簇所含样本点个数;同时,使用比例阈值过滤掉不合理的点簇,并将各点簇视为单独光源,单独计算其对周围像素的影响,其影响通过二维高斯分布函数进行建模;最后使用大气光图取代全局大气光复原图像。实验结果表明, 相对于原算法, 使用高斯分布大气光图复原的结果在主观视觉上看起来更加自然,且其客观图像质量评价指标也得到了提高。 相似文献
13.
14.
多维数据的发布与分析可以产生巨大的价值,但在数据收集阶段时常发生隐私泄露的问题.传统的中心化差分隐私保护方法要求一个完全可信的第三方数据收集者来收集数据,但在现实中很难找到一个完全可信的第三方数据收集者.随着属性维度的增加,数据收集者的求精处理工作(联合分布的计算)也成了一个亟待解决的问题.针对上述问题提出一种适用于多值数据的本地化差分隐私保护算法(RR-LDP),引入一元编码和瞬时随机响应技术用来在数据收集阶段保护个人隐私,降低了通信开销;在满足LDP的情况下,结合期望最大化(EM)算法和LASSO回归模型,提出了高效的多维数据联合分布估计算法(LREMH).该算法用LASSO回归模型估计初始值,用EM算法进行迭代计算.理论分析和实验结果表明LREMH算法在精度和效率之间取得了平衡. 相似文献
15.
16.
拓守恒 《小型微型计算机系统》2013,34(5)
为了增强和声搜索算法在求解高维多模态问题时的空间全局探索能力和求解精度,通过定义的4种反向计算方法和高斯分布估计算法,提出一种动态自适应高维和声搜索算法.该算法采用正交试验初始化和声记忆库;利用多维动态自适应算法进行和声创作;采用动态反向选择算法更新和声记忆库,并改进和声音调微调调解步长,从而增强算法的空间探索能力,避免陷入局部搜索.通过6个标准的高维Benchmark函数测试表明,本文算法在全局搜索能力、收敛速度和求解精度等方面都有明显改进. 相似文献
17.
Distribution Free Decomposition of Multivariate Data 总被引:6,自引:0,他引:6
We present a practical approach to nonparametric cluster analysis of large data sets. The number of clusters and the cluster
centres are automatically derived by mode seeking with the mean shift procedure on a reduced set of points randomly selected
from the data. The cluster boundaries are delineated using a k-nearest neighbour technique. The proposed algorithm is stable
and efficient, a 10,000 point data set being decomposed in only a few seconds. Complex clustering examples and applications
are discussed, and convergence of the gradient ascent mean shift procedure is demonstrated for arbitrary distribution and
cardinality of the data.
Received: 7 October 1998?Accepted: 9 October 1998 相似文献
18.
《计算机科学与探索》2019,(7):1165-1173
针对目前符号数据的分类性能较低,通过挖掘属性值与标签之间可能存在的空间结构关系,提出了一种基于空间相关性分析的符号数据分类方法。该方法首先采用独热编码的方式对符号数据进行特征扩容,然后基于互信息和条件熵信息度量方法,定义了一种符号数据空间关系表示方法。在此基础上,分别结合支持向量机(support vector machine,SVM)和K-最近邻(K-nearest neighbor,KNN)模型分类器,提出了基于空间相关性分析的SVM分类算法(SVM classification algorithm based on space correlation analysis,SCA_SVM)和基于空间相关性分析的KNN分类算法(KNN classification algorithm based on space correlation analysis,SCA_KNN)两种分类算法。该方法既能够体现出属性值与标签之间的关联关系,也可以有效地度量不同属性值之间的距离或差异性。在标准UCI数据集上的实验结果表明,该方法在分类性能上更加有效。 相似文献
19.
李俊丽 《计算机工程与应用》2021,57(7):95-100
针对大规模类别数据的互信息计算量非常大的问题,利用Spark内存计算平台,提出了类别数据的并行互信息计算方法,该算法首先采用列变换将数据集转换成多个数据子集;然后采用两个变长数组缓存中间结果,解决了类别数据特征对间互信息计算量大、重复性强的问题;最后在配备了24个计算节点的Spark集群中,使用人工合成和真实数据集验证... 相似文献
20.
两实例的距离或相似性度量在数据挖掘和机器学习中扮演着重要的角色。常用的距离度量方法主要适用于数值数据,针对分类数据,本文提出一种数据驱动的相似性度量方法。该方法利用属性值与类标签的信息,将属性值的类条件概率结合信息论来度量分类数据的相似性。为了与已提出的相似性度量方法作比较,把各度量方法与k最近邻算法结合,对多个分类数据集进行分类,通过十折交叉验证比较结果的错误率。实验表明该度量结合k最近邻方法使分类具有较低的错误率。 相似文献