首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 195 毫秒
1.
分析了噪声对半监督学习Gaussian-Laplacian正则化(Gaussian-Laplacian regularized,简称GLR)框架的影响,针对最小二乘准则对噪声敏感的特点,结合信息论的最大相关熵准则(maximum correntropy criterion,简称MCC),提出了一种基于最大相关熵准则的鲁棒半监督学习算法(简称GLR-MCC),并证明了算法的收敛性.半二次优化技术被用来求解相关熵目标函数.在每次迭代中,复杂的信息论优化问题被简化为标准的半监督学习问题.典型机器学习数据集上的仿真实验结果表明,在标签噪声和遮挡噪声的情况下,该算法能够有效地提高半监督学习算法性能.  相似文献   

2.
戴仙波  王娜  刘颖 《计算机工程》2019,45(10):122-129
通过将边界网关协议(BGP)更新报文激增异常问题抽象为二分类问题,提出一种基于改进高斯核函数的BGP异常检测(IGKAD)方法。采用FMS特征选择算法,选择能同时最大化类间距离和最小化类内距离的特征,得到度量分类能力的特征权值。利用基于Manhattan距离与特征权值的改进高斯核函数构造支持向量机(SVM)分类模型,并结合基于网格搜索与交叉验证的参数寻优方法,提高SVM模型分类准确率。通过设计特征效率函数,给出最优特征子集构造方法,从而选取最优特征子集作为训练数据集。实验结果表明,当训练集包含TOP10和TOP8特征时,IGKAD方法的分类准确率分别为91.65%和90.37%,相比基于机器学习的BGP异常检测方法分类性能更优。  相似文献   

3.
在数据挖掘和机器学习的基于距离的各种技术中,例如基于距离的聚类和基于距离的分类,如何度量数据间的相似性已经成为一项基础任务.对于某一具体问题,采用合适的相似性度量,会使问题得到更有效的解决.越来越多的研究表明,通过对成对约束(正约束和负约束)的充分利用,从而得到与问题相匹配的相似性度量,能够大幅度地提升算法性能.目前基于约束的相似性度量研究主要是基于约束的距离度量学习,通过对约束信息的利用,学习一个距离度量矩阵,然后再进行分类或者聚类.通过对成对约束尤其是负约束的挖掘,提出一种基于成对约束的相似性度量准则,然后将此准则应用于聚类和分类任务中,分别提出聚类和分类算法,最后在大量标准数据集上将这些算法的性能与目前流行的算法进行实验比较,并据此得出了一些经验性的启示.  相似文献   

4.
牛科  张小琴  贾郭军 《计算机工程》2015,41(1):207-210,244
无监督学习聚类算法的性能依赖于用户在输入数据集上指定的距离度量,该距离度量直接影响数据样本之间的相似性计算,因此,不同的距离度量往往对数据集的聚类结果具有重要的影响。针对谱聚类算法中距离度量的选取问题,提出一种基于边信息距离度量学习的谱聚类算法。该算法利用数据集本身蕴涵的边信息,即在数据集中抽样产生的若干数据样本之间是否具有相似性的信息,进行距离度量学习,将学习所得的距离度量准则应用于谱聚类算法的相似度计算函数,并据此构造相似度矩阵。通过在UCI标准数据集上的实验进行分析,结果表明,与标准谱聚类算法相比,该算法的预测精度得到明显提高。  相似文献   

5.
Kernel-kNN: 基于信息能度量的核k-最近邻算法   总被引:2,自引:0,他引:2  
刘松华  张军英  许进  贾宏恩 《自动化学报》2010,36(12):1681-1688
提出一种核k最近邻算法. 首先给出用于最近邻学习的信息能度量方法, 该方法克服了高维数据不便于用传统距离度量表示的困难, 提高了数据间类别相似性和距离的一致性. 在此基础上, 将传统的kNN扩展为非线性形式, 并采用半正定规划学习全局最优的度量矩阵. 算法主要特点是: 能较好地适用于高维数据, 并有效提升kNN 的分类性能. 多个数据集的实验和分析表明, 本文的Kernel-kNN算法与传统的kNN算法比较, 在低维数据上, 分类准确率相当; 在高维数据上, 分类性能有明显提高.  相似文献   

6.
李群机器学习理论 被广泛应用于图像集分类中的数据表示和处理,并获得较优结果.由此,文中提出基于稀疏字典的李群机器学习算法.首先使用协方差矩阵对图像集建模,分析协方差矩阵构成的李群结构,应用对数映射将数据映射到线性空间中,得到数据的距离矩阵.再使用路标多维缩放对数据进行降维处理,降低运算成本.最后,使用带费舍尔判别字典学习进行分类.在YTC数据集上的实验证明文中算法具有良好的鲁棒性和准确率.  相似文献   

7.
从已知数据集中学习距离度量在许多机器学习应用中都起着重要作用。传统的距离学习方法通常假定目标距离函数为马氏距离的形式,这使得学习出的距离度量在应用上具有局限性。提出了一种新的距离学习方法,将目标距离函数表示为若干候选距离的线性组合,依据最大间隔理论利用数据集的边信息学习得到组合距离中各距离分量的权值,从而得到新的距离度量。通过该距离度量在模糊C均值聚类算法中的表现来对其进行评价。在UCI数据集上,与其他已有的距离学习算法的对比实验结果证明了该文算法的有效性。  相似文献   

8.
针对模糊C-均值聚类(FCM)算法对噪声敏感、容易收敛到局部极小值的问题,提出一种基于交叉熵的模糊聚类算法。通过引入交叉熵重新定义了传统FCM算法的目标函数,利用交叉熵度量样本隶属度之间的差异性,并采用拉格朗日求解方法和朗伯W函数解决了目标函数的优化问题,此外,分析了样本划分矩阵的分布情况,依据分布特性对噪声样本进行识别。人工数据集合和标准数据集加噪的实验结果表明,该算法提高了传统FCM算法的抗干扰能力,具有更强的鲁棒性,噪声样本识别的准确率较高。  相似文献   

9.
在许多机器学习应用中,需要分析的数据可能由对称正定矩阵构成,而经典的欧氏机器学习算法处理这种数据的性能较差。针对此问题,提出一种新的基于对数欧氏度量学习的概率黎曼空间量化方法。该方法将对称正定矩阵看做对数欧氏度量下黎曼流形上的点,采用对数欧氏度量学习距离函数将概率学习矢量量化方法从欧氏空间推广到对称正定黎曼空间。在BCI IV 2a脑电数据集上,该方法相较于概率学习矢量量化方法识别正确率提升20%,高于竞赛第一名;并且计算速度快,模型训练及测试时间分别为基于仿射不变度量的同类型算法的1%和10%。在BCI III IIIa和图像数据集ETH-80上也取得了较好的结果。  相似文献   

10.
用核方法来改造传统的学习算法是近年来机器学习领域研究的一个热点.本文提出了一种新的应用核方法在原输入空间中进行聚类的思想,并把其推广应用于传统的聚类算法,得到模糊核C-均值算法和可能性核C-均值算法.该类算法的实质是在准则函数中采用了一类核诱导的非欧氏距离的新的距离度量,并且依据Huber的鲁棒统计分析,该类算法是内在鲁棒的,适合对不完整数据或缺失数据.含噪数据和野值的聚类.最后在人工和Benchmark数据集上对上述算法的性能进行了验证.  相似文献   

11.
目的 度量学习是机器学习与图像处理中依赖于任务的基础研究问题。由于实际应用背景复杂,在大量不可避免的噪声环境下,度量学习方法的性能受到一定影响。为了降低噪声影响,现有方法常用L1距离取代L2距离,这种方式可以同时减小相似样本和不相似样本的损失尺度,却忽略了噪声对类内和类间样本的不同影响。为此,本文提出了一种非贪婪的鲁棒性度量学习算法——基于L2/L1损失的边缘费歇尔分析(marginal Fisher analysis based on L2/L1 loss,MFA-L2/L1),采用更具判别性的损失,可提升噪声环境下的识别性能。方法 在边缘费歇尔分析(marginal Fisher analysis,MFA)方法的基础上,所提模型采用L2距离刻画相似样本损失、L1距离刻画不相似样本损失,同时加大对两类样本的惩罚程度以提升方法的判别性。首先,针对模型非凸带来的求解困难,将目标函数转为迭代两个凸函数之差便于求解;然后,受DCA(difference of convex functions algorithm)思想启发,推导出非贪婪的迭代求解算法,求得最终度量矩阵;最后,算法的理论证明保证了迭代算法的收敛性。结果 在5个UCI(University of California Irrine)数据集和7个人脸数据集上进行对比实验:1)在不同程度噪声的5个UCI数据集上,MFA-L2/L1算法最优,且具有较好的抗噪性,尤其在30%噪声程度的Seeds和Wine数据集上,与次优方法LDA-NgL1(non-greedy L1-norm linear discriminant analysis))相比,MFA-L2/L1的准确率高出9%;2)在不同维度的AR和FEI人脸数据集上的实验,验证了模型采用L1损失、采用L2损失提升了模型的判别性;3)在Senthil、Yale、ORL、Caltech和UMIST人脸数据集的仿真实验中,MFA-L2/L1算法呈现出较强鲁棒性,性能排名第1。结论 本文提出了一种基于L2/L1损失的鲁棒性度量学习模型,并推导了一种便捷有效的非贪婪式求解算法,进行了算法收敛性的理论分析。在不同数据集的不同噪声情况下的实验结果表明,所提算法具有较好的识别率和鲁棒性。  相似文献   

12.
现有钢琴乐谱难度分类主要由人工方式完成,效率不高,而自动识别乐谱难度等级的算法对类别的拟合度较低。因此,与传统将乐谱难度等级识别归结为回归问题不同,本文直接将其建模为基于支持向量机的分类问题。并结合钢琴乐谱分类主观性强、特征之间普遍存在相关性等特点,利用测度学习理论有难度等级标签乐谱的先验知识,依据特征对难度区分的贡献度,改进高斯径向基核函数,从而提出一种测度学习支持向量机分类算法——ML-SVM算法。在9类和4类难度两个乐谱数据集上,我们将ML-SVM算法与逻辑回归,基于线性核函数、多项式核函数、高斯径向基核函数的支持向量机算法以及结合主成分分析的各个支持向量机算法进行了对比,实验结果表明我们提出算法的识别正确率优于现有算法,分别为68.74%和84.67%。所提算法有效提高了基于高斯径向基核函数支持向量机算法在本应用问题中的分类性能。  相似文献   

13.
Approaches to distance metric learning (DML) for Mahalanobis distance metric involve estimating a parametric matrix that is associated with a linear transformation. For complex pattern analysis tasks, it is necessary to consider the approaches to DML that involve estimating a parametric matrix that is associated with a nonlinear transformation. One such approach involves performing the DML of Mahalanobis distance in the feature space of a Mercer kernel. In this approach, the problem of estimation of a parametric matrix of Mahalanobis distance is formulated as a problem of learning an optimal kernel gram matrix from the kernel gram matrix of a base kernel by minimizing the logdet divergence between the kernel gram matrices. We propose to use the optimal kernel gram matrices learnt from the kernel gram matrix of the base kernels in pattern analysis tasks such as clustering, multi-class pattern classification and nonlinear principal component analysis. We consider the commonly used kernels such as linear kernel, polynomial kernel, radial basis function kernel and exponential kernel as well as hyper-ellipsoidal kernels as the base kernels for optimal kernel learning. We study the performance of the DML-based class-specific kernels for multi-class pattern classification using support vector machines. Results of our experimental studies on benchmark datasets demonstrate the effectiveness of the DML-based kernels for different pattern analysis tasks.  相似文献   

14.
齐忍  朱鹏飞  梁建青 《软件学报》2017,28(11):2992-3001
在机器学习和模式识别任务中,选择一种合适的距离度量方法是至关重要的.度量学习主要利用判别性信息学习一个马氏距离或相似性度量.然而,大多数现有的度量学习方法都是针对数值型数据的,对于一些有结构的数据(比如符号型数据),用传统的距离度量来度量两个对象之间的相似性是不合理的;其次,大多数度量学习方法会受到维度的困扰,高维度使得训练时间长,模型的可扩展性差.提出了一种基于几何平均的混杂数据度量学习方法.采用不同的核函数将数值型数据和符号型数据分别映射到可再生核希尔伯特空间,从而避免了特征的高维度带来的负面影响.同时,提出了一个基于几何平均的多核度量学习模型,将混杂数据的度量学习问题转化为求黎曼流形上两个点的中心点问题.在UCI数据集上的实验结果表明,针对混杂数据的多核度量学习方法与现有的度量学习方法相比,在准确性方面展现出更优异的性能.  相似文献   

15.
为降低特征噪声对分类性能的影响,提出一种基于极限学习机(extreme learning machine,ELM)的收缩极限学习机鲁棒算法模型(CELM)。采用自编码器对输入数据进行重构,将隐层输出值关于输入的雅克比矩阵的F范数引入到目标函数中,提取出更具鲁棒性的抽象特征表示,利用提取到的新特征对常规的ELM层进行训练,提高方法的鲁棒性。对Mnist、UCI数据集、TE过程数据集以及添加不同强度的混合高斯噪声之后的Mnist数据集进行仿真,实验结果表明,提出的方法较ELM、HELM具有更高的分类精度和更好的鲁棒性。  相似文献   

16.
This paper proposes a new approach for solving the bearings-only target tracking (BoT) problem by introducing a maximum correntropy criterion to the pseudolinear Kalman filter (PLKF). PLKF has been a popular choice for solving BoT problems owing to the reduced computational complexity. However, the coupling between the measurement vector and pseudolinear noise causes bias in PLKF. To address this issue, a bias-compensated PLKF (BC-PLKF) under the assumption of Gaussian noisewas formulated. However, this assumptionmay not be valid in most practical cases. Therefore, a bias-compensated PLKF with maximum correntropy criterion is introduced, resulting in two new filters: maximum correntropy pseudolinear Kalman filter (MC-PLKF) and maximum correntropy bias-compensated pseudolinear Kalman filter (MC-BC-PLKF). To demonstrate the performance of the proposed estimators, a comparative analysis assuming large outliers in the process and measurement model of 2D BoT is conducted. These large outliers are modeled as non-Gaussian noises with diverse noise distributions that combine Gaussian and Laplacian noises. The simulation results are validated using root mean square error (RMSE), average RMSE (ARMSE), percentage of track loss and bias norm. Compared to PLKF and BC-PLKF, all the proposed maximum correntropy-based filters (MC-PLKF and MC-BC-PLKF) performed with superior estimation accuracy.  相似文献   

17.
Variant of Gaussian kernel and parameter setting method for nonlinear SVM   总被引:2,自引:0,他引:2  
Shui-Sheng  Hong-Wei  Feng   《Neurocomputing》2009,72(13-15):2931
The classification problem by the nonlinear support vector machine (SVM) with kernel function is discussed in this paper. Firstly, the stretching ratio is defined to analyze the performance of the kernel function, and a new type of kernel function is introduced by modifying the Gaussian kernel. The new kernel function has many properties as good as or better than Gaussian kernel: such as its stretching ratio is always lager than 1, and its implicit kernel map magnifies the distance between the vectors in local but without enlarging the radius of the circumscribed hypersphere that includes the whole mapping vectors in feature space, which maybe gets a bigger margin. Secondly, two aspects are considered to choose a good spread parameter for a given kernel function approximately and easily. One is the distance criterion which minimizes the sum-square distance between the labeled training sample and its own center and maximizes the sum-square distance between the training sample and the other labeled-center, which is equivalent to the famous Fisher ratio. The other is the angle criterion which minimizes the angle between the kernel matrix and the target matrix. Then a better criterion is given by combined those aspects. Finally, some experiments show that our methods are efficient.  相似文献   

18.
To address the sparse system identification problem in a non‐Gaussian impulsive noise environment, the recursive generalized maximum correntropy criterion (RGMCC) algorithm with sparse penalty constraints is proposed to combat impulsive‐inducing instability. Specifically, a recursive algorithm based on the generalized correntropy with a forgetting factor of error is developed to improve the performance of the sparsity aware maximum correntropy criterion algorithms by achieving a robust steady‐state error. Considering an unknown sparse system, the l1‐norm and correntropy induced metric are employed in the RGMCC algorithm to exploit sparsity as well as to mitigate impulsive noise simultaneously. Numerical simulations are given to show that the proposed algorithm is robust while providing robust steady‐state estimation performance.  相似文献   

19.
近年来,在机器学习的各个领域出现了越来越多不定的度量核矩阵,使得不定核支持向量机(IKSVM)得到了广泛关注。但是,现有IKSVM算法通常不能较好地解决高维数据所带来的信息冗余和样本稀疏等问题。针对此研究现状,对现有主流的IKSVM算法进行了研究,并基于再生核Kre?n空间(RKKS)中对IKSVM问题的稳定化定义,从理论上证明了IKSVM问题的本质为不定核主成分分析(IKPCA)降维后空间中的支持向量机(SVM)问题,进一步地提出求解IKSVM问题的新型学习框架TP-IKSVM。TP-IKSVM通过将IKSVM问题的求解拆分为IKPCA和SVM两个阶段,充分地发挥了IKPCA在处理高维数据的信息冗余和样本稀疏等方面的优势,同时结合SVM以有效分类。在真实数据集上的实验结果表明,TP-IKSVM的分类精度优于现有主流的IKSVM算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号