首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 812 毫秒
1.
针对难以获得大量有标签的训练集问题,将增量式贝叶斯学习用于小规模训练集上,并提出了一种新的序列学习算法以弥补其学习序列中存在的不足:无法充分利用先验知识导致噪声数据不断传播。在增量学习的样本选择上,算法引入了配对样本检验和类支持度的知识,分别从横向和纵向角度充分利用先验知识来选取最优增量子集优化分类器,使分类器参数在动态学习过程中得以强化。实验结果表明,该算法能有效弱化噪声数据的消极影响,提高分类精度,同时能大幅度减少增量学习时间。  相似文献   

2.
基于Tri-training的半监督SVM   总被引:1,自引:1,他引:0       下载免费PDF全文
当前机器学习面临的主要问题之一是如何有效地处理海量数据,而标记训练数据是十分有限且不易获得的。提出了一种新的半监督SVM算法,该算法在对SVM训练中,只要求少量的标记数据,并能利用大量的未标记数据对分类器反复的修正。在实验中发现,Tri-training的应用确实能够提高SVM算法的分类精度,并且通过增大分类器间的差异性能够获得更好的分类效果,所以Tri-training对分类器的要求十分宽松,通过SVM的不同核函数来体现分类器之间的差异性,进一步改善了协同训练的性能。理论分析与实验表明,该算法具有较好的学习效果。  相似文献   

3.
赵静  韩京宇  钱龙  毛毅 《计算机应用》2022,42(6):1892-1897
心电图(ECG)数据通常包含多种病症,而ECG诊断是一个典型的多标签分类问题。在多标签分类方法中,RAKEL算法将标签集随机分解为若干个大小为k的子集,并建立LP分类器进行训练;然而由于没有充分考虑标签间的相关性,LP分类器中容易产生一些标签组合所对应样本稀少的情况,从而影响预测性能。为了充分考虑标签间的相关性,提出一种基于贝叶斯网络的RAKEL算法BN-RAKEL。首先利用贝叶斯网络找到标签间的相关性,确定候选标签子集;然后对每个标签采用基于信息增益的特征选择算法确定其最优特征空间,并针对每个候选标签子集利用最优特征空间相似性来检测其相关程度,以确定最终的具有强相关性的标签子集;最后在标签子集的最优特征空间上训练LP分类器。在实际的ECG数据集上,与多标签K近邻(ML-KNN)、RAKEL、CC和基于FP-Growth的RAKEL算法FI-RAKEL进行对比,结果显示所提算法在召回率和F-score上最少提高了3.6个百分点和2.3个百分点。实验结果表明,BN-RAKEL算法有较好的预测性能,能有效提升ECG诊断的准确性。  相似文献   

4.
尹玉  詹永照  姜震 《计算机应用》2019,39(8):2204-2209
在视频语义检测中,有标记样本不足会严重影响检测的性能,而且伪标签样本中的噪声也会导致集成学习基分类器性能提升不足。为此,提出一种伪标签置信选择的半监督集成学习算法。首先,在三个不同的特征空间上训练出三个基分类器,得到基分类器的标签矢量;然后,引入加权融合样本所属某个类别的最大概率与次大概率的误差和样本所属某个类别的最大概率与样本所属其他各类别的平均概率的误差,作为基分类器的标签置信度,并融合标签矢量和标签置信度得到样本的伪标签和集成置信度;接着,选择集成置信度高的样本加入到有标签的样本集,迭代训练基分类器;最后,采用训练好的基分类器集成协作检测视频语义概念。该算法在实验数据集UCF11上的平均准确率到达了83.48%,与Co-KNN-SVM算法相比,平均准确率提高了3.48个百分点。该算法选择的伪标签能体现样本所属类别与其他类别的总体差异性,又能体现所属类别的唯一性,可减少利用伪标签样本的风险,有效提高视频语义概念检测的准确率。  相似文献   

5.
分类问题是数据挖掘领域的研究热点之一。多标签分类器可以将数据对象预测为多个类别,训练集中属性相同但对应类标签不同的对象的数目是不平衡的,而现有的评估算法并未能区分其代价。提出了一种基于不同权重的准确性评估方法EMOWDIF,根据多标签数据对象属于相同属性不同类别的数目之间的比值计算相应的权重,对分类器模型给予不同程度的奖惩,从而区分不同分类器的性能。方法用编程实现,并对多标签数据集的分类结果进行评估。实验结果表明该方法能有效评估分类器。  相似文献   

6.
Rakel(Random k-labelsets)算法从原始标签集中随机选择一部分标签子集,并且使用LP(Label Powerset)算法训练相应的多标签子分类器。由于随机选择标签的原因,导致LP子分类器预测性能不好。本文基于标签的共现关系选择成对标签来训练LP分类器,提出PwRakel(Pairwise Random k-labelsets)算法。该算法通过挖掘标签相关性扩展训练集,有效提高分类性能。实验结果表明,所提出的算法与Rakel算法以及其他算法对比,分类准确度更高。  相似文献   

7.
杨帅  王浩  俞奎  曹付元 《软件学报》2023,34(7):3206-3225
稳定学习的目标是利用单一的训练数据构造一个鲁棒的预测模型,使其可以对任意与训练数据具有相似分布的测试数据进行精准的分类.为了在未知分布的测试数据上实现精准预测,已有的稳定学习算法致力于去除特征与类标签之间的虚假相关关系.然而,这些算法只能削弱特征与类标签之间部分虚假相关关系并不能完全消除虚假相关关系;此外,这些算法在构建预测模型时可能导致过拟合问题.为此,提出一种基于实例加权和双分类器的稳定学习算法,所提算法通过联合优化实例权重和双分类器来学习一个鲁棒的预测模型.具体而言,所提算法从全局角度平衡混杂因子对实例进行加权来去除特征与类标签之间的虚假相关关系,从而更好地评估每个特征对分类的作用.为了完全消除数据中部分不相关特征与类标签之间的虚假相关关系以及弱化不相关特征对实例加权过程的干扰,所提算法在实例加权之前先进行特征选择筛除部分不相关特征.为了进一步提高模型的泛化能力,所提算法在训练预测模型时构建两个分类器,通过最小化两个分类器的参数差异来学习一个较优的分类界面.在合成数据集和真实数据集上的实验结果表明了所提方法的有效性.  相似文献   

8.
翟俊海  张素芳  王聪  沈矗  刘晓萌 《计算机应用》2018,38(10):2759-2763
针对传统的主动学习算法只能处理中小型数据集的问题,提出一种基于MapReduce的大数据主动学习算法。首先,在有类别标签的初始训练集上,用极限学习机(ELM)算法训练一个分类器,并将其输出用软最大化函数变换为一个后验概率分布。然后,将无类别标签的大数据集划分为l个子集,并部署到l个云计算节点上。在每一个节点,用训练出的分类器并行地计算各个子集中样例的信息熵,并选择信息熵大的前q个样例进行类别标注,将标注类别的l×q个样例添加到有类别标签的训练集中。重复以上步骤直到满足预定义的停止条件。在Artificial、Skin、Statlog和Poker 4个数据集上与基于ELM的主动学习算法进行了比较,结果显示,所提算法在4个数据集上均能完成主动样例选择,而基于ELM的主动学习算法只在规模最小的数据集上能完成主动样例选择。实验结果表明,所提算法优于基于极限学习机的主动学习算法。  相似文献   

9.
层次标签文本分类是自然语言处理领域中一项具有挑战性的任务,每个文档需要被正确分类到对应具有层次结构的多个标签中。然而在标签集中,由于标签包含的语义信息不充分,同时被归类到深层次标签的文档数量过少,深层次标签训练不充分,导致显著的标签训练不平衡问题。基于此,提出了深层次标签辅助分类任务的层次标签文本分类方法(DLAC)。该方法提出了一种深层次标签辅助分类器,在标签语义增强的基础上有效利用文本特征与深层次标签对应的父标签结点(即浅层次标签的丰富特征)来提升深层次标签的分类性能。与11种算法在三个数据集上的对比实验结果表明,模型能够有效提升深层次标签的分类性能,并取得良好效果。  相似文献   

10.
Tri-Training是一种半监督学习算法,在少量标记数据下,通过三个不同的分类器,从未标记样本中采样并标记新的训练数据,作为各分类器训练数据的有效补充。但由于错误标记样本的存在,引入了噪音数据,降低了分类的性能。论文在Tri—Training算法中分别采用DE-KNN,DE-BKNN和DE-NED三种数据编辑技术,识别移除误标记的数据。通过对六组UCI数据集的实验,分析结果表明,编辑技术的引入是有效的,三种方法的使用在一定程度上提升了Tri-Training算法的分类性能,尤其是DE-NED方法更为显著。  相似文献   

11.
In this paper a further generalization of differential evolution based data classification method is proposed, demonstrated and initially evaluated. The differential evolution classifier is a nearest prototype vector based classifier that applies a global optimization algorithm, differential evolution, for determining the optimal values for all free parameters of the classifier model during the training phase of the classifier. The earlier version of differential evolution classifier that applied individually optimized distance measure for each new data set to be classified is generalized here so, that instead of optimizing a single distance measure for the given data set, we take a further step by proposing an approach where distance measures are optimized individually for each feature of the data set to be classified. In particular, distance measures for each feature are selected optimally from a predefined pool of alternative distance measures. The optimal distance measures are determined by differential evolution algorithm, which is also determining the optimal values for all free parameters of the selected distance measures in parallel. After determining the optimal distance measures for each feature together with their optimal parameters, we combine all featurewisely determined distance measures to form a single total distance measure, that is to be applied for the final classification decisions. The actual classification process is still based on the nearest prototype vector principle; A sample belongs to the class represented by the nearest prototype vector when measured with the above referred optimized total distance measure. During the training process the differential evolution algorithm determines optimally the class vectors, selects optimal distance metrics for each data feature, and determines the optimal values for the free parameters of each selected distance measure. Based on experimental results with nine well known classification benchmark data sets, the proposed approach yield a statistically significant improvement to the classification accuracy of differential evolution classifier.  相似文献   

12.
模糊c-均值算法改进及其对卫星遥感数据聚类的对比   总被引:4,自引:0,他引:4  
提出的改进的模糊c-均值聚类方法采用基于标准协方差矩阵的Mahalanobis距离,即椭球体聚类方法,这种聚类算法更接近遥感数据散点图的实际情况,从而可以显著提高聚类效果。对北京卫星ASTER数据的聚类分析实验表明,改进的模糊c-均值聚类方法的聚类效果要优于K-均值聚类方法和常规的模糊c-均值聚类方法。  相似文献   

13.
针对异构数据集下的不均衡分类问题,从数据集重采样、集成学习算法和构建弱分类器3个角度出发,提出一种针对异构不均衡数据集的分类方法——HVDM-Adaboost-KNN算法(heterogeneous value difference metric-Adaboost-KNN),该算法首先通过聚类算法对数据集进行均衡处理,获得多个均衡的数据子集,并构建多个子分类器,采用异构距离计算异构数据集中2个样本之间的距离,提高KNN算法的分类准性能,然后用Adaboost算法进行迭代获得最终分类器。用8组UCI数据集来评估算法在不均衡数据集下的分类性能,Adaboost实验结果表明,相比Adaboost等算法,F1值、AUC、G-mean等指标在异构不均衡数据集上的分类性能都有相应的提高。  相似文献   

14.
当手臂操作与脑电控制被同时应用到水下机器人操作中,且操作人员处于不同作业状态时,针对使用单一脑电信号分类器无法获得较为理想的控制意图识别准确率问题,提出使用组合分类器选取分类结果和根据实际作业情况的特殊性修正分类结果的方法来提升识别准确率.首先,使用Fisher判别方法分别对无手臂操作和存在手臂操作产生的数据进行训练,得到两种作业状态下的分类器;其次,将两分类器进行组合并使用曲线拟合的方式确定用来判定分类结果的基准距离差值(该差值的选取考虑了个体差异);再次,根据实际作业情况的特殊性使用距离修正函数对距离差值进行修正;最后,通过比较基准距离差值与修正后距离差值的大小来确定最终分类结果.为了验证所提方法的有效性,邀请了6位被试者参与测试过程.实验结果显示,在设计的在线实验中,相对于其他3种方法,所提方法在识别准确率上分别提升了13.42%、5.55%和5.55%,说明所提方法是可行且有效的.  相似文献   

15.
动态集成选择算法中,待测样本的能力区域由固定样本组成,这会影响分类器选择,因此提出一种基于动态能力区域策略的DES-DCR-CIER算法。首先采用异构分类器生成基分类器池,解决同构集成分类器差异性较小和异构集成分类器数目较少的问题;然后采用相互自适应K近邻算法、逼近样本集距离中心和剔除类别边缘样本三个步骤得到待测样本的动态能力区域,基于整体互补性指数选择一组互补性强的分类器;最后通过ER规则对分类器组进行合成。在安徽合肥某三甲医院的八位超声科医生乳腺肿块诊断数据集和美国威斯康辛州乳腺癌诊断公开数据集上的实验表明,基于DES-DCR-CIER算法的诊断模型精度更优。  相似文献   

16.
In this paper, we propose a novel supervised dimension reduction algorithm based on K-nearest neighbor (KNN) classifier. The proposed algorithm reduces the dimension of data in order to improve the accuracy of the KNN classification. This heuristic algorithm proposes independent dimensions which decrease Euclidean distance of a sample data and its K-nearest within-class neighbors and increase Euclidean distance of that sample and its M-nearest between-class neighbors. This algorithm is a linear dimension reduction algorithm which produces a mapping matrix for projecting data into low dimension. The dimension reduction step is followed by a KNN classifier. Therefore, it is applicable for high-dimensional multiclass classification. Experiments with artificial data such as Helix and Twin-peaks show ability of the algorithm for data visualization. This algorithm is compared with state-of-the-art algorithms in classification of eight different multiclass data sets from UCI collection. Simulation results have shown that the proposed algorithm outperforms the existing algorithms. Visual place classification is an important problem for intelligent mobile robots which not only deals with high-dimensional data but also has to solve a multiclass classification problem. A proper dimension reduction method is usually needed to decrease computation and memory complexity of algorithms in large environments. Therefore, our method is very well suited for this problem. We extract color histogram of omnidirectional camera images as primary features, reduce the features into a low-dimensional space and apply a KNN classifier. Results of experiments on five real data sets showed superiority of the proposed algorithm against others.  相似文献   

17.
由于LTE网络数据量庞大而且种类繁多,人工路测分析已经无法满足当今对基于路测数据质差小区检测的需求.为了提高质差小区检测的效率与正确率,机器学习逐渐在质差小区检测中得到了应用.本文针对小区数量较少的路测数据,提出了一种基于距离的四维特征的质差小区检测方法.该方法采用聚类算法和人工判断相结合的方式对路测数据进行标定,对比分析了基于距离的四维特征和传统的两维特征的提取效果,并在逻辑回归分类器、决策树分类器、支持向量机分类器和k近邻分类器这4种分类器中进行分类.实验结果表明,基于距离的四维特征比传统的二维特征更有利于质差小区检测;使用四维特征进行分类,支持向量机分类器的效果最好.  相似文献   

18.
提出了一种新颖的基于正交投影的分类器算法。该算法将测试样本正交投影到由各类训练样本生成的子空间中,并计算测试样本到各子空间的距离,以此作为分类的依据。该算法不需要计算样本协方差矩阵的逆阵,因此特别适合于小样本问题。在ORL人脸库上的实验结果表明,该算法的模式识别率高于传统分类器方法。  相似文献   

19.
20.
K-modes算法中原有的分类变量间距离度量方法无法体现属性值之间差异,对此提出了一种基于朴素贝叶斯分类器中间运算结果的距离度量。该度量构建代表分类变量的特征向量并计算向量间的欧氏距离作为变量间的距离。将提出的距离度量代入K-modes聚类算法并在多个UCI公共数据集上与其他度量方法进行比较,实验结果表明该距离度量更加有效。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号