首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
针对大数据样例选择问题,提出了一种基于随机森林(RF)和投票机制的大数据样例选择算法。首先,将大数据集划分成两个子集,要求第一个子集是大型的,第二个子集是中小型的。然后,将第一个大型子集划分成q个规模较小的子集,并将这些子集部署到q个云计算节点,并将第二个中小型子集广播到q个云计算节点。接下来,在各个节点用本地数据子集训练随机森林,并用随机森林从第二个中小型子集中选择样例,之后合并在各个节点选择的样例以得到这一次所选样例的子集。重复上述过程p次,得到p个样例子集。最后,用这p个子集进行投票,得到最终选择的样例子集。在Hadoop和Spark两种大数据平台上实现了提出的算法,比较了两种大数据平台的实现机制。此外,在6个大数据集上将所提算法与压缩最近邻(CNN)算法和约简最近邻(RNN)算法进行了比较,实验结果显示数据集的规模越大时,与这两个算法相比,提出的算法测试精度更高且时间消耗更短。证明了提出的算法在大数据处理上具有良好的泛化能力和较高的运行效率,可以有效地解决大数据的样例选择问题。  相似文献   

2.
从海量数据中进行近似数据的检索是数据挖掘领域许多应用的关键。尤其近年来,数据的规模出现爆炸式增长,数据检索需面对海量数据和"维度灾难"的叠加考验,这使得传统最近邻算法效率降低,而近似最近邻算法发挥了越来越重要的作用。其中哈希算法以其在存储空间和计算时间上的优势受到了广泛关注。提出了一种基于随机森林的哈希算法。该算法通过构建随机森林,将原始空间的样本映射为海明空间的二进制哈希码,并在哈希空间上定义了顺序敏感的海明距离,以最大程度保持数据在原空间的近邻关系不变。由于随机森林中不同决策树所使用的特征空间和学习过程是独立的,可以以增量的方式灵活地确定哈希码的长度。此外基于随机森林的哈希编码算法天然适合并行部署,从而可以大大提高算法速度。最后,在MNIST和CIFAR-10数据集对所提算法进行了实验验证,结果表明了算法的有效性和出色性能。  相似文献   

3.
提出一种概率神经网络样例选择算法,它包括两个阶段,第一个阶段利用概率神经网络计算样例的不确定性,第二个阶段利用计算出的不确定性选择样例.与压缩近邻规则、编辑近邻规则、约简近邻规则和迭代过滤算法四种代表性的样例选择算法进行了实验比较,实验结果显示在能力保持框架下,该算法的性能优于这四种方法.本文提出的算法具有下列特点:(1)学习速度快;(2)没有分类器的限制;(3)具有好的泛化能力.  相似文献   

4.
为了解决现有无监督二元哈希方法由于存在较大量化损失而导致检索精度较低的问题,在CIBHash方法的基础上,提出了一种新的基于对比学习的无监督三元哈希方法——CUTHash,将三元哈希编码用于图像检索。具体来说,首先,使用融合了解耦对比损失的对比学习框架,在目标数据集上进行无监督的图像特征学习;接着,为了得到三元哈希编码,对学习到的图像特征使用平滑函数进行量化操作,解决离散函数量化后导致的零梯度问题;最后,应用改进后的对比损失,约束同属一张图像的增强视图的特征在哈希空间中尽可能地接近,从而使得三元哈希编码具有一定的辨识力,使其更好地应用于无监督图像检索任务。在CIFAR-10、NUS-WIDE、MSCOCO以及ImageNet100数据集上进行了大量对比实验,取得了较当前主流的无监督哈希方法更好的检索性能,从而验证了CUTHash方法的有效性。  相似文献   

5.
传统的大数据样例选择算法由于仅设置单一参数,导致算法在实际应用中的性能较差。因此,提出基于网格技术的大数据样例选择算法。首先,设置大数据样例选择算法的参数,计算出样例精确度的平均值,并在网格技术的支持下,确定样例选择算法的目标函数;其次,通过对样例数据进行聚类,生成大数据样例选择算法;最后,进行仿真实验。仿真结果表明,与传统大数据样例选择算法相比,该算法的压缩比为6.092,在实际应用中的性能更好。  相似文献   

6.
代表点选择是面向数据挖掘与模式识别的数据预处理的重要内容之一,是提高分类器分类正确率和执行效率的重要途径。提出了一种基于投票机制的代表点选择算法,该算法能使所得到的代表点尽可能分布在类别边界上,且投票选择机制易于排除异常点,减少数据量,从而有利于提高最近邻分类器的分类精度和效率。通过与多个经典的代表点选择算法的实验比较分析,表明所提出的基于投票机制的代表点选择算法在提高最近邻分类器分类精度和数据降低率上都具有一定的优势。  相似文献   

7.
韩亚茹  闫连山  姚涛 《计算机应用》2022,42(7):2015-2021
随着移动互联网技术的发展,图像数据的规模越来越大,大规模图像检索任务已经成为了一个紧要的问题。由于检索速度快和存储消耗低,哈希算法受到了研究者的广泛关注。基于深度学习的哈希算法要达到较好的检索性能,需要一定数量的高质量训练数据来训练模型。然而现存的哈希方法通常忽视了数据集存在数据类别非平衡的问题,而这可能会降低检索性能。针对上述问题,提出了一种基于元学习网络的深度哈希检索算法。所提算法可以直接从数据中自动学习加权函数。该加权函数是只有一个隐含层的多层感知机(MLP),在少量无偏差元数据的指导下,加权函数的参数可以和模型训练过程中的参数同时进行优化更新。元学习网络参数的更新方程可以解释为:较符合元学习数据的样本权重将被提高,而不符合元学习数据的样本权重将被减小。基于元学习网络的深度哈希检索算法可以有效减少非平衡数据对图像检索的影响,并可以提高模型的鲁棒性。在CIFAR-10等广泛使用的基准数据集上进行的大量实验表明,在非平衡比率较大时,所提算法的平均准确率均值(mAP)最佳;在非平均比率为200的条件下,所提算法的mAP比中心相似度量化算法、非对称深度监督哈希(ADSH)算法和快速可扩展监督哈希(FSSH)算法分别提高0.54个百分点,30.93个百分点和48.43个百分点。  相似文献   

8.
基于样例学习的面部特征自动标定算法   总被引:11,自引:1,他引:10  
面部特征标定是人脸识别中的一个关键问题.提出了一种基于样例学习的面部特征自动标定(人脸形状自动提取)方法.该方法是基于下面假设提出来的:人脸图像差和形状差之间存在一种近似的线性关系--相似的人脸图像在较大程度上蕴涵着相似的形状.因此,给定标注了特征点的人脸图像学习集,则任意新的输入人脸图像的面部形状可以采用如下方法估计:测量该人脸图像和训练集中图像的相似度,并将同样的相似度用于该人脸图像形状的重建.即:如果输入人脸图像可以表示为训练图像的优化的线性组合,那么同样的线性组合系数就可以直接用于训练集对应形状的线性组合从而得到输入人脸图像的形状.实验表明,该算法相对于其他传统的特征标定算法具有可比的精度和较快的速度.并且,还将此算法扩展到了多姿态情况下,实现了多姿态人脸图像形状的自动提取.  相似文献   

9.
在主动学习中,采用近邻熵(NeighborhoodEntropy)作为样例的挑选标准,熵值最大的样例体现基于近邻分类规则,最无法确定该样例的类标。而标注不确定性高的样例可用尽量少的样例获得较高的分类性能。文中提出一种基于近邻熵的主动学习算法。该算法首先计算未标注样例的近邻样例类别熵,然后挑选熵值最大样例的进行标注。实验表明,基于近邻熵挑选样例进行标注,较基于最大距离(MaximalDistance)挑选和随机样例挑选可获得更高的分类性能。  相似文献   

10.
针对Android平台恶意应用的检测技术,提出一种基于集成学习投票算法的Android恶意程序检测方法MASV(Soft-Voting Algorithm),以有效地对未知应用程序进行分类。从已知开源的数据集中获取了实验的基础数据,使用的应用程序集包含213 256个良性应用程序以及18 363个恶意应用程序。使用SVM-RFE特征选择算法对特征进行降维。使用多个分类器的集合,即SVM(Support Vector Machine)、[K]-NN[(K]-Nearest Neighbor)、NB(Na?ve Bayes)、CART(Classification and Regression Tree)和RF(Random Forest),以检测恶意应用程序和良性应用程序。使用梯度上升算法确定集成学习软投票的基分类器权重参数。实验结果表明,该方法在恶意应用程序检测中达到了99.27%的准确率。  相似文献   

11.
为了实现图像认证,提出了基于混沌理论的图像hash算法。算法首先将原始图像经过置乱得到加密图像,然后对差值矩阵进行调制,量化,得到固定长度的图像Hash序列,算法讨论了图像的缩放和JPEG压缩对图像Hash序列的影响,当阈值为0.1时,对以上提到的攻击方法进行了实验,结果表明图像对这两种攻击具有一定的鲁棒性。  相似文献   

12.
In machine learning the so-called curse of dimensionality, pertinent to many classification algorithms, denotes the drastic increase in computational complexity and classification error with data having a great number of dimensions. In this context, feature selection techniques try to reduce dimensionality finding a new more compact representation of instances selecting the most informative features and removing redundant, irrelevant, and/or noisy features. In this paper, we propose a filter-based feature selection method for working in the multiple-instance learning scenario called ReliefF-MI; it is based on the principles of the well-known ReliefF algorithm. Different extensions are designed and implemented and their performance checked in multiple instance learning. ReliefF-MI is applied as a pre-processing step that is completely independent from the multi-instance classifier learning process and therefore is more efficient and generic than wrapper approaches proposed in this area. Experimental results on five benchmark real-world data sets and 17 classification algorithms confirm the utility and efficiency of this method, both statistically and from the point of view of execution time.  相似文献   

13.
目的 传统的多示例学习跟踪在跟踪过程中使用了自学习过程,当目标跟踪失败时分类器很容易退化。针对这个问题,提出一种基于在线特征选取的多示例学习跟踪方法(MILOFS)。方法 首先,该文使用稀疏随机矩阵来简化视频跟踪中图像特征的构建,使用随机矩阵投影来自高维度的图像信息。然后,利用Fisher线性判别模型构建包模型的损失函数,依照示例响应值直接在示例水平构建分类器的判别模型。最后,从梯度下降角度看待在线增强模型,使用梯度增强法来构建分类器的选取模型。结果 对不同场景的图像序列进行对比实验,实验结果中在线自适应增强(OAB)、在线多实例学习跟踪(MILTrack)、加权多实例学习跟踪(WMIL)、在线特征选取多实例学习跟踪(MILOFS)的平均跟踪误差分别为36像素、23像素、24像素、13像素,本文算法在光照变化、发生遮挡,以及形变的情况下都能准确跟踪目标,且具有很高的实时性。结论 基于在线特征选取的多示例学习跟踪,跟踪过程使用梯度增强法并直接在示例水平构建包模型的判别模型,可以有效克服传统多示例学习中的分类器退化问题。  相似文献   

14.
黄宇扬  董明刚  敬超 《计算机应用》2018,38(11):3112-3118
针对传统的实例选择算法会误删训练集中非噪声样本、算法效率低的不足,提出了一种面向K最近邻(KNN)的遗传实例选择算法。该算法采用基于决策树和遗传算法的二阶段筛选机制,先使用决策树确定噪声样本存在的范围;再使用遗传算法在该范围内精确删除噪声样本,可有效地降低误删率并提高效率,采用基于最近邻规则的验证集选择策略,进一步提高了遗传算法实例选择的准确度;最后引进基于均方误差(MSE)的分类精度惩罚函数来计算遗传算法中个体的适应度,提高有效性和稳定性。在20个数据集上,该方法相较于基于预分类的KNN (PRKNN)、基于协同进化的实例特征选择算法(IFS-CoCo)、K最近邻(KNN),在分类精度上的提升分别为0.07~26.9个百分点、0.03~11.8个百分点、0.2~12.64个百分点,在AUC和Kappa的上的提升分别为0.25~18.32个百分点、1.27~23.29个百分点、0.04~12.82个百分点。实验结果表明,该方法相较于当前实例选择算法在分类精度和分类效率上均具有优势。  相似文献   

15.
Although many more complex learning algorithms exist, k-nearest neighbor is still one of the most successful classifiers in real-world applications. One of the ways of scaling up the k-nearest neighbors classifier to deal with large datasets is instance selection. Due to the constantly growing amount of data in almost any pattern recognition task, we need more efficient instance selection algorithms, which must achieve larger reductions while maintaining the accuracy of the selected subset.  相似文献   

16.
为了减轻传统计算机辅助检测系统中感兴趣区域标定的时间和精力,提出针对钼靶X光乳腺钙化簇检测的示例选择算法。以分块形式对图像打包,对所有负包示例进行纹理建模,并计算每个未知包中的示例与负包平均模型的距离,选取最大距离的示例作为可疑区域。实验结果表明,该算法在不需要人工标注感兴趣区域,不降低钙化簇检测性能的前提下,大幅度减少了运算时间和空间。  相似文献   

17.
龚永红  郑威  吴林  谭马龙  余浩 《计算机应用》2018,38(10):2856-2861
针对现有属性选择算法平等地对待每个样本而忽略样本之间的差异性,从而使学习模型无法避免噪声样本影响问题,提出一种融合自步学习理论的无监督属性选择(UFS-SPL)算法。首先自动选取一个重要的样本子集训练得到属性选择的鲁棒性初始模型,然后逐步自动引入次要样本提升模型的泛化能力,最终获得一个能避免噪声干扰而同时具有鲁棒性和泛化性的属性选择模型。在真实数据集上与凸半监督多标签属性选择(CSFS)、正则化自表达(RSR)和无监督属性选择的耦合字典学习方法(CDLFS)相比,UFS-SPL的聚类准确率、互信息和纯度平均提升12.06%、10.54%和10.5%。实验结果表明,UFS-SPL能够有效降低数据集中无关信息的影响。  相似文献   

18.
G3P-MI: A genetic programming algorithm for multiple instance learning   总被引:1,自引:0,他引:1  
This paper introduces a new Grammar-Guided Genetic Programming algorithm for resolving multi-instance learning problems. This algorithm, called G3P-MI, is evaluated and compared to other multi-instance classification techniques in different application domains. Computational experiments show that the G3P-MI often obtains consistently better results than other algorithms in terms of accuracy, sensitivity and specificity. Moreover, it makes the knowledge discovery process clearer and more comprehensible, by expressing information in the form of IF-THEN rules. Our results confirm that evolutionary algorithms are very appropriate for dealing with multi-instance learning problems.  相似文献   

19.
多示例学习是不同于传统机器学习的一种新的学习模式,近年来被应用于图像检索、文本分类等领域。提出一种基于在线学习的多示例学习算法,将其应用于目标跟踪。该算法通过构造一个在线学习的多示例分类器作为检测器,无需制作大量的样本进行离线的训练,只需在第一帧手动选中目标,便可以自动生成正样本和负样本,并在随后的帧序列中,根据跟踪到的目标自动更新分类器,在跟踪器丢失目标或者目标从场景中消失后,它能够重新检测到目标并更新跟踪器,从而有效地支持了跟踪器跟踪目标。实验证明该方法在背景复杂,光线变化,摄像机抖动等复杂条件下,可以很好地跟踪到目标,且对遮挡具有较好的鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号